[Trennmuster] Unterstützung für Primär- und Sekundärtrennstellen

Keno Wehr wehr at abgol.de
Mi Okt 18 21:44:24 CEST 2023


Am 27.08.23 um 22:18 schrieb Werner LEMBERG:
>> Mir ist jetzt noch eine Fallklasse aufgefallen, deren Behandlung
>> wahrscheinlich noch verbessert werden kann, nämlich Wörter der Form
>> a<b>c>d.
>>
>> Aus „nach<denk>lich“ in der Wortliste werden die Primärtrennstellen
>> „nach-denk-lich“, dann sollte „Nach<denk>lich>keit“ logischerweise
>> „Nachdenklich-keit“ ergeben, mit extract-tex.pl erhält man aber
>> „Nach-denklich-keit“.  Für solche Fälle sind die Regeln zur
>> Bindungsstärke in README.wortliste wohl auch nicht klar genug.
> Also wenn Du einen passenden Algorithmus findest, der zuverlässig das
> produziert, was Dir vorschwebt, läßt sich das bestimmt implementieren!

Dazu hatte ich die Idee, die Trennzeichen „<“ und „>“ nicht von außen 
nach innen absteigend, sondern von innen nach außen aufsteigend zu 
wichten. Aus dem bisherigen

       #    0    1   2    3   4     5    6      7   8     9   10
       #   ------------------------------------------------------
       #   Nach  <  denk  >  lich   >  keit
       #    0   39   0   38   0    39    0
       #
       #   Mit   <  ver   <  ant    -  wort     >  lich >  keit
       #    0   39   0   38   0    10    0     38   0    39    0
       #
       #   Ei    -  gen   =  wirt   >  schaft  =>  lich =>  keit
       #    0   10   0   50   0    39    0     68   0    69    0

würde dann:

       #    0    1   2    3   4     5    6      7   8     9   10
       #   ------------------------------------------------------
       #   Nach  <  denk  >  lich   >  keit
       #    0   31   0   31   0    32    0
       #
       #   Mit   <  ver   <  ant    -  wort     >  lich >  keit
       #    0   32   0   31   0    10    0     31   0    32    0
       #
       #   Ei    -  gen   =  wirt   >  schaft  =>  lich =>  keit
       #    0   10   0   50   0    31    0     61   0    62    0

Damit würde sich die Primärtrennung von „Nachdenklichkeit“ von 
„Nach-denklich-keit“ in „Nachdenklich-keit“ verändern, während sich bei 
den beiden anderen Beispielen nichts ändern würde. Insgesamt hätte es 
Auswirkungen auf Primärtrennungen von 4282 Wörtern der Wortliste.

In einer Reihe von Fällen wäre die Primärtrennung damit verbessert:

Nach-denklich-keit -> Nachdenklich-keit
außer-gewöhn-lich -> außer-gewöhnlich
be-dürfnis-los -> bedürfnis-los
dis-kontinuier-lich -> dis-kontinuierlich
Gegen-ereig-nis -> Gegen-ereignis
ge-sundheit-lich -> gesundheit-lich
ge-wohnheits-mäßig -> gewohnheits-mäßig

In anderen Fällen ergibt der alternative Algorithmus schlechtere Ergebnisse:

an-geborener-weise -> an-geborenerweise
be-anspruch-bar -> be-anspruchbar
im-provisier-bar -> im-provisierbar
kom-promiss-los -> kom-promisslos
nach-gewiesener-maßen -> nach-gewiesenermaßen

Insgesamt scheint mir der aktuelle Stand des Skripts dann doch den 
besseren Kompromiss zu bieten. Eine Verbesserung wäre wohl nur durch 
eine Ausdifferenzierung der Auszeichnung erzielbar, die aber 
unverhältnismäßig aufwendig wäre.

Schöne Grüße
Keno


-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20231018/53316125/attachment.htm>


Mehr Informationen über die Mailingliste Trennmuster