[Trennmuster] neuer Arbeitsansatz
Werner LEMBERG
wl at gnu.org
Sa Nov 5 06:58:11 CET 2016
> Es geht mit 5 Spalten:
Ja, daran hab' ich auch schon gedacht. Danke fürs explizite
Aufschreiben!
> 1 'de':
> Wort mit Trennungen nach aktueller Rechtschreibung (de-1996).
> Einziges Feld, falls andere Varianten über Regeln gewonnen werden
> können.
>
> "-1-" falls die Schreibung in de-1996 unzulässig ist (-1-;Pro<zeß).
>
> 2 'de-1901':
> Wort mit Trennung nach de-1901 falls abweichend von der
> regelbasierten Ableitung aus "de".
>
> "-2-" falls die Schreibung in de-1901 unzulässig ist
> (Ur<laubs=tipp;-2-).
>
> 3 'de-CH' oder 'de-x-GROSS':
> Wort mit SZ-Ersatzschreibung, die entweder in der Schweiz oder mit
> Großbuchstaben oder Kapitälchen benutzt wird. Trennungen nach
> aktueller Rechtschreibung (de-CH-1996, de-1996-x-GROSS).
Weil Du »SZ« erwähnst: Formen wie »GROSZ« werden noch nicht von
»erzeuge-wortliste.pl« generiert, aber das wird kommen :-)
> "-3-" falls die Schreibung in de-CH-1996 unzulässig ist und
> weitere Felder folgen.
>
> 4 'de-1901-x-GROSS':
> Wort mit SZ-Ersatzschreibung für de-1901 mit Großbuchstaben oder
> Kapitälchen. Belegt, falls abweichend von der regelbasierten
> Ableitung aus "de-x-GROSS".
>
> "-4-" falls die abgeleitete Schreibung in de-1901 unzulässig ist.
>
> 5 'de-CH-1901':
> Wort mit SZ-Ersatzschreibung, die der Schweiz benutzt wird.
> Insbesondere Wörter mit „sss“ gefolgt von einem Vokal, die wie
> andere Dreifachkonsonanten gehandhabt wurden (also anders, als bei
> Ersatzschreibung in Deutschland und Österreich), z.B. „süssauer“
> Belegt, falls abweichend von der regelbasierten Ableitung aus
> "de-CH".
>
> "-5-" falls die abgeleitete Schreibung in de-CH-1901 unzulässig
> ist.
Genau so, jawoll.
> Frage: Sollen Schreibweisen, die nach aktueller Rechtschreibung
> (de-1996) ungültig sind, in die neuen Listen
> * immer
> * nur, wenn sie nicht über Rechtschreibregeln erzeugt werden
> können?
Letzteres, denke ich mal, um Wörter wie »Tipp« zu erfassen, oder
Einträge, wo die »-st«-zu-»s-t«-Regel nicht answendbar ist.
> Ich denke, die Transformationsregeln sollten generisch dokumentiert
> werden (und dann von uns beiden in pl/py implementiert).
OK, wobei natürlich das Überführen von regulären Ausdrücken in
deutschen Text mühsam ist :-)
Danke für die Dokumentation; das ist ein guter Start. Im Augenblick
habe ich nicht die Muße, das im Detail zu kontrollieren...
> [...] Diese Regeln ändern die Schreibung des ungetrennten Worts (und
> somit den Schlüssel im Langformat der Wortliste).
>
> Frage: Eintrag als Ausnahmen oder Ermittlung über Ableitungsregel.
Was ableitbar ist, bitte ableiten!
> In de-CH-1901 wird Ersatz-ss nach Sprechsilbenregel getrennt:
>
> 9952 Wörter mit Ersatz-ss (Einträge mit ;-4-; in wortliste
> 3397 Wörter mit ungetrenntem Ersatz-ss (Spalte 5 in wortliste)
> 6450 Wörter mit getrenntem Ersatz-ss (;-5-;[^-] in wortliste)
>
> Frage: Eintrag als Ausnahmen oder komplexe Ableitungsregel.
Ditto, also ableiten. Wie mein Skript zeigt, *kann* man es ableiten.
Dadurch bleibt die Anzahl von Ausnahmen schön klein.
Werner
Mehr Informationen über die Mailingliste Trennmuster