[Trennmuster] Muster für gewichtete Trennstellen

Guenter Milde milde at users.sf.net
Do Jun 9 10:38:22 CEST 2022


Am  7.06.22 schrieb Keno Wehr:
> Liebe Trennfreunde,

> bei den Vorbereitungen zu einem Trennalgorithmus mit gewichteten
> Trennstellen (Variante b aus meiner E-Mail an diese Liste vom 25.09.2020)
> bin ich auf folgende Probleme gestoßen:

> 1. Der in „Trennstile.txt“ genannte Stil „Primärtrennstellen“ scheint noch
> nicht in stilfilter.py implementiert zu sein (außerdem wünschenswert wäre
> ein Filter für Sekundärtrennstellen).

Bisher gab es noch keinen Bedarf für einen solchen Trennstil, da z.B.
die Trennung "Bundesausbildungsförderungs-
gesetz" nicht schwerer zu lesen ist als die Primärtrennung.

> Für die Primärtrennstellen habe ich stattdessen das Make-Ziel major benutzt
> und im Makefile W=1 gesetzt.

Die bereits verfügbare Alternative ist ein weiterer Grund für die "Lücke" in
`stilfilter.py`.

...

> 4. In einigen Fällen, insbesondere wo Präfix und Suffix vorhanden sind,
> sollte die Auszeichnung überdacht werden. Für die oberste Trennebene finde
> ich beispielsweise „Agro-busi-ness“ unglücklich. Da würde ich lieber nur
> „Agro-business“ sehen.

Hier ist wahrscheinlich keine neue Auszeichung nötig.
Falls sich diese Beobachtung verallgemeinern lässt, reicht eine
"Herabstufung" der Bindungsstärke von Suffixtrennungen:

--- a/dokumente/README.wortliste
+++ b/dokumente/README.wortliste
@@ -272,23 +272,28 @@ Die Bindungsstärke nimmt dabei mit der Länge des Trennzeichens ab:
   Bindungsstärke  Zeichen
   --------------  -------------
   stark           -
-  .               <, >
+  .               <
+  .		  >
   .               =
-  .               ==, <=, =>
-  schwach         ===, <==, ==>
+  .               ==
+  .		  <=
+  .		  =>
+  .		  ===
+  .		  <==
+  schwach	  ==>


Insgesamt ist zu bedenken, dass die "Güte" einer Trennstelle eine
komplexe Abhängikeit von Bindungsstärke, Abstand zu anderen Trennstellen
und Position im Wort ist.
Die Entwicklung einer Formel bzw. eines Algorithmus, um aus der Auszeichnung
in der Wortliste eine "Trennstellengüte" zu gewinnen steht noch aus.
Das ist eine interessante Aufgabe, aber auch voller Streitpotential, da mit
hohem Subjektivitätsanteil. Ich denke, hier ist dann eine iterative Testung
und Verfeinerung von Auszeichnung, Filtern und Trennalgorithmus nötig.

Viele Grüße
Günter




Mehr Informationen über die Mailingliste Trennmuster