[Trennmuster] Problem mit Ein-Buchstaben-Trennungen

Werner LEMBERG wl at gnu.org
Mo Jan 11 09:01:44 CET 2021


Lieber Günter!


Gerade bin ich dabei, mein Skript »extract-tex.pl« mit
»sprachauszug.py« abzugleichen.  Dabei bin ich auf eine logische
Inkonsistenz gestoßen, glaube ich.

Warum wird für den Aufruf

  sprachauszug.py -l de-1996,de-1996-x-versal ...

der Eintrag

  aargauischen;aar=gau=>.i-schen

von Deinem Skript als

  aarg=gaui-schen

getrennt, während

  Ärzteinitiative;-2-;Ärz-te=in<.i·ti.a-ti-ve;Ärz-te=i·n<.i-ti.a-ti-ve

zu

  Ärz-te-initia-ti-ve

wird?  Die Muster bezüglich ».« sind, soweit ich das sehen kann,
ident (weil »·« nicht berücksichtigt werden darf):

  XXX=>.X-XXX
  XXX<.X-XXX

und trotzdem gibt's verschiedene Resultate.

So, wie es Dein Skript auflöst, ist es meiner Meinung nach korrekt.
Aber die Syntax, die wir verwenden, gibt das nicht her.  Mit anderen
Worten, das derzeitige Ergebnis ist implementationsabhängig.

Ich glaube, wir müssen eine Möglichkeit schaffen, folgende beiden
Situationen zu unterscheiden.

(1) Bevorzugung der Nicht-Standard-Trennstelle bei
    Ein-Buchstaben-Trennungen (also Anwendung von ».« während
    Behandlung von Ein-Buchstaben-Trennungen).

      aargaui-schen

(2) Verhindere eine Trennstelle, die entstünde, wenn die normalen
    Trennregeln angewendet würden (also Anwendung von ».« nach
    Behandlung von Ein-Buchstaben-Trennungen).

      Ärztein-nitiative

Ein mögliche Lösung ist – ich glaube, ich hab' das schon einmal
vorgeschlagen – für (2) explizit beide Ein-Buchstaben-Trennstellen mit
».« zu markieren:

  Ärztein<.i-.tiative


    Werner




Mehr Informationen über die Mailingliste Trennmuster