[Trennmuster] neuer Arbeitsansatz
Werner LEMBERG
wl at gnu.org
Fr Okt 28 21:33:36 CEST 2016
> Wenn wir "Format a)" nehmen (ohne Schlüssel), können wir -1- auch ganz
> weglassen. Ein ";" gibt ja zuverlässig an, dass eine Ausnahme vorliegt.
>
> Die restlichen Spalten können entweder einfach nachrücken, oder
> neu definiert werden.
>
> * Mit erster Spalte == de-1996 wäre die Extraktion der Trennmuster
> für die aktuelle Rechtschreibung trivial und die Bedeutung der
> 1. Spalte einheitlich für Regeleinträge und Ausnahmen.
>
> * Mit herkömmlicher Spaltendefinition wäre die Umwandlung von
> Ausnahmen ins alte Format einfacher und die Verwirrung für "alte
> Hasen" bei "Handkorrekturen" der Ausnahmen geringer.
Meinst Du folgendes?
* Nur eine Spalte.
AR, versal AR, versal NR und schweiz AR sind von NR
algorithmisch ableitbar.
Beispiel:
Dach=de-cker=meis-ter
* Mehr als eine Spalte.
AR;NR[;versAR=versNR=schweizAR[;versAR[;versNR[;schweizAR]]]]
Beispiel:
An<äs-the-sie=creme;An<äs-the-sie=creme
Mit diesem Schema kämen wir auf höchstens sechs Felder. Ich glaube,
kompakter geht's nicht mehr, ohne die Lesbarkeit zu verlieren.
> Ziel ist Wandlung ins neue Format
>
> Eintrag: e = "Anästhesiologe;An<äs-the-sio>lo-ge"
>
> 1. Auswahl der Sprachvariante de-1996: e96 = "An<äs-the-sio>lo-ge"
>
> 2. Rücktransformation: er = "Anästhesiologe;-2-;An<ä-sthe-sio>lo-ge;An<äs-the-sio>lo-ge"
>
> 3. Vergleich:
>
> if e == er:
> print e96
> else:
> print ausnahme(e)
>
> Ausgabe: "-2-;An<äs-the-sio>lo-ge;An<äs-the-sio>lo-ge"
>
> oder "An<äs-the-sio>lo-ge;An<äs-the-sio>lo-ge" # ohne Leerspalte
>
> oder "An<äs-the-sio>lo-ge;" # ";$" als Kürzel für "noch mal gleich"
OK, verstanden, danke. Genau das hab' ich manuell gemacht, um die
Ausnahmen zu finden und separat zu sammeln.
> Dann müßte noch über die extra-Einträge mit ß nachgedacht werden...
Ja, das ist trickreich. Schau Dir den Algorithmus in
»erzeuge-wortliste.pl« an! Vielleicht kann das Ideen liefern – ich
denke, der Code sollte selbst für Perl-Nichtversierte einigermaßen
verständlich sein :-)
Werner
Mehr Informationen über die Mailingliste Trennmuster