[Trennmuster] neuer Arbeitsansatz

Werner LEMBERG wl at gnu.org
Fr Okt 28 21:33:36 CEST 2016


> Wenn wir "Format a)" nehmen (ohne Schlüssel), können wir -1- auch ganz
> weglassen. Ein ";" gibt ja zuverlässig an, dass eine Ausnahme vorliegt.
>
> Die restlichen Spalten können entweder einfach nachrücken, oder
> neu definiert werden.
>
> * Mit erster Spalte == de-1996 wäre die Extraktion der Trennmuster
>   für die aktuelle Rechtschreibung trivial und die Bedeutung der
>   1. Spalte einheitlich für Regeleinträge und Ausnahmen.
>
> * Mit herkömmlicher Spaltendefinition wäre die Umwandlung von
>   Ausnahmen ins alte Format einfacher und die Verwirrung für "alte
>   Hasen" bei "Handkorrekturen" der Ausnahmen geringer.

Meinst Du folgendes?

  * Nur eine Spalte.

      AR, versal AR, versal NR und schweiz AR sind von NR
      algorithmisch ableitbar.

    Beispiel:

      Dach=de-cker=meis-ter

  * Mehr als eine Spalte.

      AR;NR[;versAR=versNR=schweizAR[;versAR[;versNR[;schweizAR]]]]

    Beispiel:

      An<äs-the-sie=creme;An<äs-the-sie=creme

Mit diesem Schema kämen wir auf höchstens sechs Felder.  Ich glaube,
kompakter geht's nicht mehr, ohne die Lesbarkeit zu verlieren.

> Ziel ist Wandlung ins neue Format
>
> Eintrag: e = "Anästhesiologe;An<äs-the-sio>lo-ge"
>
> 1. Auswahl der Sprachvariante de-1996: e96 = "An<äs-the-sio>lo-ge"
>
> 2. Rücktransformation: er = "Anästhesiologe;-2-;An<ä-sthe-sio>lo-ge;An<äs-the-sio>lo-ge"
>
> 3. Vergleich:
>
>       if e == er:
>          print e96
>       else:
>          print ausnahme(e)
>
> Ausgabe: "-2-;An<äs-the-sio>lo-ge;An<äs-the-sio>lo-ge"
>
> oder     "An<äs-the-sio>lo-ge;An<äs-the-sio>lo-ge"     # ohne Leerspalte
>
> oder     "An<äs-the-sio>lo-ge;"       # ";$" als Kürzel für "noch mal gleich"

OK, verstanden, danke.  Genau das hab' ich manuell gemacht, um die
Ausnahmen zu finden und separat zu sammeln.

> Dann müßte noch über die extra-Einträge mit ß nachgedacht werden...

Ja, das ist trickreich.  Schau Dir den Algorithmus in
»erzeuge-wortliste.pl« an!  Vielleicht kann das Ideen liefern – ich
denke, der Code sollte selbst für Perl-Nichtversierte einigermaßen
verständlich sein :-)


    Werner




Mehr Informationen über die Mailingliste Trennmuster