[Trennmuster] Problem mit Ein-Buchstaben-Trennungen
Werner LEMBERG
wl at gnu.org
Mo Jan 11 09:01:44 CET 2021
Lieber Günter!
Gerade bin ich dabei, mein Skript »extract-tex.pl« mit
»sprachauszug.py« abzugleichen. Dabei bin ich auf eine logische
Inkonsistenz gestoßen, glaube ich.
Warum wird für den Aufruf
sprachauszug.py -l de-1996,de-1996-x-versal ...
der Eintrag
aargauischen;aar=gau=>.i-schen
von Deinem Skript als
aarg=gaui-schen
getrennt, während
Ärzteinitiative;-2-;Ärz-te=in<.i·ti.a-ti-ve;Ärz-te=i·n<.i-ti.a-ti-ve
zu
Ärz-te-initia-ti-ve
wird? Die Muster bezüglich ».« sind, soweit ich das sehen kann,
ident (weil »·« nicht berücksichtigt werden darf):
XXX=>.X-XXX
XXX<.X-XXX
und trotzdem gibt's verschiedene Resultate.
So, wie es Dein Skript auflöst, ist es meiner Meinung nach korrekt.
Aber die Syntax, die wir verwenden, gibt das nicht her. Mit anderen
Worten, das derzeitige Ergebnis ist implementationsabhängig.
Ich glaube, wir müssen eine Möglichkeit schaffen, folgende beiden
Situationen zu unterscheiden.
(1) Bevorzugung der Nicht-Standard-Trennstelle bei
Ein-Buchstaben-Trennungen (also Anwendung von ».« während
Behandlung von Ein-Buchstaben-Trennungen).
aargaui-schen
(2) Verhindere eine Trennstelle, die entstünde, wenn die normalen
Trennregeln angewendet würden (also Anwendung von ».« nach
Behandlung von Ein-Buchstaben-Trennungen).
Ärztein-nitiative
Ein mögliche Lösung ist – ich glaube, ich hab' das schon einmal
vorgeschlagen – für (2) explizit beide Ein-Buchstaben-Trennstellen mit
».« zu markieren:
Ärztein<.i-.tiative
Werner
Mehr Informationen über die Mailingliste Trennmuster