[Trennmuster] neuer Arbeitsansatz
Guenter Milde
milde at users.sf.net
Fr Nov 4 16:40:13 CET 2016
On 28.10.16, Werner LEMBERG wrote:
> > Wenn wir "Format a)" nehmen (ohne Schlüssel), können wir -1- auch ganz
> > weglassen. Ein ";" gibt ja zuverlässig an, dass eine Ausnahme vorliegt.
> >
> > Die restlichen Spalten können entweder einfach nachrücken, oder
> > neu definiert werden.
...
> Meinst Du folgendes?
> * Nur eine Spalte.
> AR, versal AR, versal NR und schweiz AR sind von NR
> algorithmisch ableitbar.
> Beispiel:
> Dach=de-cker=meis-ter
> * Mehr als eine Spalte.
> AR;NR[;versAR=versNR=schweizAR[;versAR[;versNR[;schweizAR]]]]
> Beispiel:
> An<äs-the-sie=creme;An<äs-the-sie=creme
> Mit diesem Schema kämen wir auf höchstens sechs Felder. Ich glaube,
> kompakter geht's nicht mehr, ohne die Lesbarkeit zu verlieren.
Es geht mit 5 Spalten:
Feldbelegung im Kurzformat (Vorschlag)
Sprachtags nach [BCP47]_.
`Tags for Identifying Languages`, http://www.rfc-editor.org/rfc/bcp/bcp47.txt
1 'de':
Wort mit Trennungen nach aktueller Rechtschreibung (de-1996).
Einziges Feld, falls andere Varianten über Regeln gewonnen werden können.
"-1-" falls die Schreibung in de-1996 unzulässig ist (-1-;Pro<zeß).
2 'de-1901':
Wort mit Trennung nach de-1901 falls abweichend von der regelbasierten
Ableitung aus "de".
"-2-" falls die Schreibung in de-1901 unzulässig ist (Ur<laubs=tipp;-2-).
3 'de-CH' oder 'de-x-GROSS':
Wort mit SZ-Ersatzschreibung, die entweder in
der Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird.
Trennungen nach aktueller Rechtschreibung (de-CH-1996, de-1996-x-GROSS).
"-3-" falls die Schreibung in de-CH-1996 unzulässig ist und weitere Felder
folgen.
4 'de-1901-x-GROSS':
Wort mit SZ-Ersatzschreibung für de-1901 mit Großbuchstaben oder
Kapitälchen.
Belegt, falls abweichend von der regelbasierten Ableitung aus "de-x-GROSS".
"-4-" falls die abgeleitete Schreibung in de-1901 unzulässig ist.
5 'de-CH-1901':
Wort mit SZ-Ersatzschreibung, die der Schweiz benutzt wird.
Insbesondere Wörter mit „sss“ gefolgt von einem Vokal, die wie
andere Dreifachkonsonanten gehandhabt wurden (also anders, als
bei Ersatzschreibung in Deutschland und Österreich), z.B. „süssauer“
Belegt, falls abweichend von der regelbasierten Ableitung aus "de-CH".
"-5-" falls die abgeleitete Schreibung in de-CH-1901 unzulässig ist.
Bei den Ableitungsregeln können wir unterscheiden zwischen
Trennregeländerungen (ändern nicht das Wort, nur die Trennmöglichkeiten)
und Rechtschreibänderungen.
Letztere ändern die Schreibung des ungetrennten Worts (und somit den
Schlüssel im Langformat der Wortliste).
Frage: Sollen Schreibweisen die nach aktueller Rechtschreibung (de-1996)
ungültig sind in die neuen Listen
* immer
* nur, wenn sie nicht über Rechtschreibregeln erzeugt werden können?
> Schau Dir den Algorithmus in »erzeuge-wortliste.pl« an! Vielleicht
> kann das Ideen liefern – ich denke, der Code sollte selbst für
> Perl-Nichtversierte einigermaßen verständlich sein :-)
Ich denke, die Transformationsregeln sollten generisch dokumentiert werden
(und dann von uns beiden in pl/py implementiert).
Vorschlag (unvollständig)
Regeln zur Ableitung von Sprachvarianten
----------------------------------------
Trennregeländerungen
~~~~~~~~~~~~~~~~~~~~
Diese Regeln ändern nicht das Wort, nur die Trennmöglichkeiten.
Ableitung von de-1901 aus de-1996 (Reversion der Reform 1996):
1. Trenne nie st: Ersetze 's-t' mit u'-st'.
2. Trenne ck als k-k: Ersetze '-ck' mit '{ck/k-k}'.
Rechtschreibänderungen
~~~~~~~~~~~~~~~~~~~~~~
Diese Regeln ändern die Schreibung des ungetrennten Worts (und somit den
Schlüssel im Langformat der Wortliste).
Frage: Eintrag als Ausnahmen oder Ermittlung über Ableitungsregel.
Ableitung von de-1901 aus de-1996 (Reversion der Reform 1996):
3. kein ss und sst am Wortende (ungetrenntes "ss" nur in Ausnahmen):
Ersetze 'ss' mit 'ß'.
Ersetze 'sst' mit 'ßt'.
Aber: 'ßt' und Schluss-ß auch in de-1996 möglich (langer Vokal)
4. Dreikonsonantenregel:
Ersetze 'mm=m' mit '{mm/mm=m}' (für alle Konsonanten vor Selbstlaut)
"([bfglmnprt])\1=\1"([aeiouyäöü])" ==> "{\1\1/\1\1=\1}\2"
Ableitung von de-CH/de-x-GROSS aus de-1996 (SZ-Ersatzschreibung):
5. SZ-Ersatzschreibung: Ersetze 'ß' mit 'ss'
Ableitung von de-1901-x-GROSS aus de-1901
6. Trennung von Ersatz-ss:
In de-CH-1901 wird Ersatz-ss nach Sprechsilbenregel getrennt:
9952 Wörter mit Ersatz-ss (Einträge mit ;-4-; in wortliste
3397 Wörter mit ungetrenntem Ersatz-ss (Spalte 5 in wortliste)
6450 Wörter mit getrenntem Ersatz-ss (;-5-;[^-] in wortliste)
Frage: Eintrag als Ausnahmen oder komplexe Ableitungsregel.
Ableitung von de-CH-1901 aus de-1901-x-GROSS
7. Dreikonsonantenregel für Ersatz-ss:
Ersetze "ss=s([aeiouyäöü])" mit "{ss/ss=s}\1"
500 Wörter mit Dreikonsonantenregel für s (süss=sauer)
Günter
Mehr Informationen über die Mailingliste Trennmuster