[Trennmuster] neuer Arbeitsansatz

Werner LEMBERG wl at gnu.org
Sa Nov 5 06:58:11 CET 2016


> Es geht mit 5 Spalten:

Ja, daran hab' ich auch schon gedacht.  Danke fürs explizite
Aufschreiben!

> 1 'de':
>   Wort mit Trennungen nach aktueller Rechtschreibung (de-1996).
>   Einziges Feld, falls andere Varianten über Regeln gewonnen werden
>   können.
>
>   "-1-" falls die Schreibung in de-1996 unzulässig ist (-1-;Pro<zeß).
>
> 2 'de-1901':
>   Wort mit Trennung nach de-1901 falls abweichend von der
>   regelbasierten Ableitung aus "de".
>
>   "-2-" falls die Schreibung in de-1901 unzulässig ist
>   (Ur<laubs=tipp;-2-).
>
> 3 'de-CH' oder 'de-x-GROSS':
>   Wort mit SZ-Ersatzschreibung, die entweder in der Schweiz oder mit
>   Großbuchstaben oder Kapitälchen benutzt wird.  Trennungen nach
>   aktueller Rechtschreibung (de-CH-1996, de-1996-x-GROSS).

Weil Du »SZ« erwähnst: Formen wie »GROSZ« werden noch nicht von
»erzeuge-wortliste.pl« generiert, aber das wird kommen :-)

>   "-3-" falls die Schreibung in de-CH-1996 unzulässig ist und
>   weitere Felder folgen.
>
> 4 'de-1901-x-GROSS':
>   Wort mit SZ-Ersatzschreibung für de-1901 mit Großbuchstaben oder
>   Kapitälchen.  Belegt, falls abweichend von der regelbasierten
>   Ableitung aus "de-x-GROSS".
>
>   "-4-" falls die abgeleitete Schreibung in de-1901 unzulässig ist.
>
> 5 'de-CH-1901':
>   Wort mit SZ-Ersatzschreibung, die der Schweiz benutzt wird.
>   Insbesondere Wörter mit „sss“ gefolgt von einem Vokal, die wie
>   andere Dreifachkonsonanten gehandhabt wurden (also anders, als bei
>   Ersatzschreibung in Deutschland und Österreich), z.B. „süssauer“
>   Belegt, falls abweichend von der regelbasierten Ableitung aus
>   "de-CH".
>
>   "-5-" falls die abgeleitete Schreibung in de-CH-1901 unzulässig
>   ist.

Genau so, jawoll.

> Frage: Sollen Schreibweisen, die nach aktueller Rechtschreibung
>        (de-1996) ungültig sind, in die neuen Listen
>        * immer
>        * nur, wenn sie nicht über Rechtschreibregeln erzeugt werden
>          können?

Letzteres, denke ich mal, um Wörter wie »Tipp« zu erfassen, oder
Einträge, wo die »-st«-zu-»s-t«-Regel nicht answendbar ist.

> Ich denke, die Transformationsregeln sollten generisch dokumentiert
> werden (und dann von uns beiden in pl/py implementiert).

OK, wobei natürlich das Überführen von regulären Ausdrücken in
deutschen Text mühsam ist :-)

Danke für die Dokumentation; das ist ein guter Start.  Im Augenblick
habe ich nicht die Muße, das im Detail zu kontrollieren...

> [...] Diese Regeln ändern die Schreibung des ungetrennten Worts (und
> somit den Schlüssel im Langformat der Wortliste).
>
> Frage: Eintrag als Ausnahmen oder Ermittlung über Ableitungsregel.

Was ableitbar ist, bitte ableiten!

>    In de-CH-1901 wird Ersatz-ss nach Sprechsilbenregel getrennt:
>
>    9952 Wörter mit Ersatz-ss (Einträge mit ;-4-; in wortliste
>    3397 Wörter mit ungetrenntem Ersatz-ss (Spalte 5 in wortliste)
>    6450 Wörter mit getrenntem Ersatz-ss (;-5-;[^-] in wortliste)
>
>    Frage: Eintrag als Ausnahmen oder komplexe Ableitungsregel.

Ditto, also ableiten.  Wie mein Skript zeigt, *kann* man es ableiten.
Dadurch bleibt die Anzahl von Ausnahmen schön klein.


    Werner




Mehr Informationen über die Mailingliste Trennmuster