[Trennmuster] Unterstützung für Primär- und Sekundärtrennstellen
Keno Wehr
wehr at abgol.de
Mi Okt 18 21:44:24 CEST 2023
Am 27.08.23 um 22:18 schrieb Werner LEMBERG:
>> Mir ist jetzt noch eine Fallklasse aufgefallen, deren Behandlung
>> wahrscheinlich noch verbessert werden kann, nämlich Wörter der Form
>> a<b>c>d.
>>
>> Aus „nach<denk>lich“ in der Wortliste werden die Primärtrennstellen
>> „nach-denk-lich“, dann sollte „Nach<denk>lich>keit“ logischerweise
>> „Nachdenklich-keit“ ergeben, mit extract-tex.pl erhält man aber
>> „Nach-denklich-keit“. Für solche Fälle sind die Regeln zur
>> Bindungsstärke in README.wortliste wohl auch nicht klar genug.
> Also wenn Du einen passenden Algorithmus findest, der zuverlässig das
> produziert, was Dir vorschwebt, läßt sich das bestimmt implementieren!
Dazu hatte ich die Idee, die Trennzeichen „<“ und „>“ nicht von außen
nach innen absteigend, sondern von innen nach außen aufsteigend zu
wichten. Aus dem bisherigen
# 0 1 2 3 4 5 6 7 8 9 10
# ------------------------------------------------------
# Nach < denk > lich > keit
# 0 39 0 38 0 39 0
#
# Mit < ver < ant - wort > lich > keit
# 0 39 0 38 0 10 0 38 0 39 0
#
# Ei - gen = wirt > schaft => lich => keit
# 0 10 0 50 0 39 0 68 0 69 0
würde dann:
# 0 1 2 3 4 5 6 7 8 9 10
# ------------------------------------------------------
# Nach < denk > lich > keit
# 0 31 0 31 0 32 0
#
# Mit < ver < ant - wort > lich > keit
# 0 32 0 31 0 10 0 31 0 32 0
#
# Ei - gen = wirt > schaft => lich => keit
# 0 10 0 50 0 31 0 61 0 62 0
Damit würde sich die Primärtrennung von „Nachdenklichkeit“ von
„Nach-denklich-keit“ in „Nachdenklich-keit“ verändern, während sich bei
den beiden anderen Beispielen nichts ändern würde. Insgesamt hätte es
Auswirkungen auf Primärtrennungen von 4282 Wörtern der Wortliste.
In einer Reihe von Fällen wäre die Primärtrennung damit verbessert:
Nach-denklich-keit -> Nachdenklich-keit
außer-gewöhn-lich -> außer-gewöhnlich
be-dürfnis-los -> bedürfnis-los
dis-kontinuier-lich -> dis-kontinuierlich
Gegen-ereig-nis -> Gegen-ereignis
ge-sundheit-lich -> gesundheit-lich
ge-wohnheits-mäßig -> gewohnheits-mäßig
In anderen Fällen ergibt der alternative Algorithmus schlechtere Ergebnisse:
an-geborener-weise -> an-geborenerweise
be-anspruch-bar -> be-anspruchbar
im-provisier-bar -> im-provisierbar
kom-promiss-los -> kom-promisslos
nach-gewiesener-maßen -> nach-gewiesenermaßen
Insgesamt scheint mir der aktuelle Stand des Skripts dann doch den
besseren Kompromiss zu bieten. Eine Verbesserung wäre wohl nur durch
eine Ausdifferenzierung der Auszeichnung erzielbar, die aber
unverhältnismäßig aufwendig wäre.
Schöne Grüße
Keno
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20231018/53316125/attachment.htm>
Mehr Informationen über die Mailingliste Trennmuster