<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
<font face="monospace">Am 27.08.23 um 22:18 schrieb Werner LEMBERG:<span
style="white-space: pre-wrap">
</span></font>
<blockquote type="cite"
cite="mid:20230827.221829.1226985640739615145.wl@gnu.org">
<blockquote type="cite">
<pre class="moz-quote-pre" wrap="">Mir ist jetzt noch eine Fallklasse aufgefallen, deren Behandlung
wahrscheinlich noch verbessert werden kann, nämlich Wörter der Form
a<b>c>d.
Aus „nach<denk>lich“ in der Wortliste werden die Primärtrennstellen
„nach-denk-lich“, dann sollte „Nach<denk>lich>keit“ logischerweise
„Nachdenklich-keit“ ergeben, mit extract-tex.pl erhält man aber
„Nach-denklich-keit“. Für solche Fälle sind die Regeln zur
Bindungsstärke in README.wortliste wohl auch nicht klar genug.
</pre>
</blockquote>
<pre class="moz-quote-pre" wrap="">
Also wenn Du einen passenden Algorithmus findest, der zuverlässig das
produziert, was Dir vorschwebt, läßt sich das bestimmt implementieren!</pre>
</blockquote>
<font face="monospace"><br>
Dazu hatte ich die Idee, die Trennzeichen „<“ und „>“ nicht
von außen nach innen absteigend, sondern von innen nach außen
aufsteigend zu wichten. Aus dem bisherigen<br>
<br>
# 0 1 2 3 4 5 6 7 8 9 10<br>
# ------------------------------------------------------<br>
# Nach < denk > lich > keit<br>
# 0 39 0 38 0 39 0<br>
#<br>
# Mit < ver < ant - wort > lich
> keit<br>
# 0 39 0 38 0 10 0 38 0 39 0<br>
#<br>
# Ei - gen = wirt > schaft => lich
=> keit<br>
# 0 10 0 50 0 39 0 68 0 69 0<br>
<br>
würde dann:<br>
<br>
# 0 1 2 3 4 5 6 7 8 9 10<br>
# ------------------------------------------------------<br>
# Nach < denk > lich > keit<br>
# 0 31 0 31 0 32 0<br>
#<br>
# Mit < ver < ant - wort > lich
> keit<br>
# 0 32 0 31 0 10 0 31 0 32 0<br>
#<br>
# Ei - gen = wirt > schaft => lich
=> keit<br>
# 0 10 0 50 0 31 0 61 0 62 0<br>
</font><font face="monospace"><br>
Damit würde sich die Primärtrennung von „Nachdenklichkeit“ von
„Nach-denklich-keit“ in „Nachdenklich-keit“ verändern, während
sich bei den beiden anderen Beispielen nichts ändern würde.
Insgesamt hätte es Auswirkungen auf Primärtrennungen von 4282
Wörtern der Wortliste.<br>
<br>
In einer Reihe von Fällen wäre die Primärtrennung damit
verbessert:<br>
<br>
Nach-denklich-keit -> Nachdenklich-keit<br>
außer-gewöhn-lich -> außer-gewöhnlich<br>
be-dürfnis-los -> bedürfnis-los<br>
dis-kontinuier-lich -> dis-kontinuierlich<br>
Gegen-ereig-nis -> Gegen-ereignis<br>
ge-sundheit-lich -> gesundheit-lich<br>
ge-wohnheits-mäßig -> gewohnheits-mäßig<br>
<br>
In anderen Fällen ergibt der alternative Algorithmus schlechtere
Ergebnisse:<br>
<br>
an-geborener-weise -> an-geborenerweise<br>
be-anspruch-bar -> be-anspruchbar<br>
im-provisier-bar -> im-provisierbar<br>
kom-promiss-los -> kom-promisslos<br>
nach-gewiesener-maßen -> nach-gewiesenermaßen<br>
<br>
Insgesamt scheint mir der aktuelle Stand des Skripts dann doch den
besseren Kompromiss zu bieten. Eine Verbesserung wäre wohl nur
durch eine Ausdifferenzierung der Auszeichnung erzielbar, die aber
unverhältnismäßig aufwendig wäre.<br>
<br>
Schöne Grüße<br>
Keno<br>
<br>
<br>
<br>
</font>
</body>
</html>