[Trennmuster] neuer Arbeitsansatz
Stephan Hennig
sh-list at posteo.net
Fr Nov 4 22:14:50 CET 2016
Am 04.11.2016 um 16:40 schrieb Guenter Milde:
> Feldbelegung im Kurzformat (Vorschlag)
>
> Sprachtags nach [BCP47]_.
> `Tags for Identifying Languages`, http://www.rfc-editor.org/rfc/bcp/bcp47.txt
>
> 1 'de':
> Wort mit Trennungen nach aktueller Rechtschreibung (de-1996).
> Einziges Feld, falls andere Varianten über Regeln gewonnen werden können.
>
> "-1-" falls die Schreibung in de-1996 unzulässig ist (-1-;Pro<zeß).
>
> 2 'de-1901':
> Wort mit Trennung nach de-1901 falls abweichend von der regelbasierten
> Ableitung aus "de".
>
> "-2-" falls die Schreibung in de-1901 unzulässig ist (Ur<laubs=tipp;-2-).
>
> 3 'de-CH' oder 'de-x-GROSS':
> Wort mit SZ-Ersatzschreibung, die entweder in
> der Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird.
> Trennungen nach aktueller Rechtschreibung (de-CH-1996, de-1996-x-GROSS).
>
> "-3-" falls die Schreibung in de-CH-1996 unzulässig ist und weitere Felder
> folgen.
>
> 4 'de-1901-x-GROSS':
> Wort mit SZ-Ersatzschreibung für de-1901 mit Großbuchstaben oder
> Kapitälchen.
> Belegt, falls abweichend von der regelbasierten Ableitung aus "de-x-GROSS".
>
> "-4-" falls die abgeleitete Schreibung in de-1901 unzulässig ist.
>
> 5 'de-CH-1901':
> Wort mit SZ-Ersatzschreibung, die der Schweiz benutzt wird.
> Insbesondere Wörter mit „sss“ gefolgt von einem Vokal, die wie
> andere Dreifachkonsonanten gehandhabt wurden (also anders, als
> bei Ersatzschreibung in Deutschland und Österreich), z.B. „süssauer“
> Belegt, falls abweichend von der regelbasierten Ableitung aus "de-CH".
>
> "-5-" falls die abgeleitete Schreibung in de-CH-1901 unzulässig ist.
Kannst du zum besseren Verständnis bitte Beispiele für
süsssauer
süssauer
angeben? Sollen diese Formen überhaupt explizit aufgeführt werden?
Lassen die sich nicht weitgehend ableiten (und die Formen mit "sz"
gleich dazu)?
> Bei den Ableitungsregeln können wir unterscheiden zwischen
> Trennregeländerungen (ändern nicht das Wort, nur die Trennmöglichkeiten)
> und Rechtschreibänderungen.
>
> Letztere ändern die Schreibung des ungetrennten Worts (und somit den
> Schlüssel im Langformat der Wortliste).
>
> Frage: Sollen Schreibweisen die nach aktueller Rechtschreibung (de-1996)
> ungültig sind in die neuen Listen
> * immer
> * nur, wenn sie nicht über Rechtschreibregeln erzeugt werden können?
>
>
>> Schau Dir den Algorithmus in »erzeuge-wortliste.pl« an! Vielleicht
>> kann das Ideen liefern – ich denke, der Code sollte selbst für
>> Perl-Nichtversierte einigermaßen verständlich sein :-)
>
> Ich denke, die Transformationsregeln sollten generisch dokumentiert werden
> (und dann von uns beiden in pl/py implementiert).
Wenn automatische Transformationen schon stattfinden, halte ich es für
sinnvoll, den Vorgang modular zu gestalten und beliebige
Transformationen durch Nutzer zu unterstützen. Beispiele wären
* Ableiten bzw. Extrahieren von de-1901
* Ableiten bzw. Extrahieren von de-1901-CH
* Unterbinden von Trennungen markiert mit ...
* -"- ..
* -"- .
* " " Sprechsilben in de-1996
* " " sämtlichen Stammtrennungen
* Ableiten von ss-Schreibungen
* Ableiten von sz-Schreibungen
* beliebige weitere individuelle Manipulationen, etwa Unterbinden
der Trennung ti-on u. ä.
* Ableiten von Ligaturmustern
* Ableiten von Rund-s-Mustern
* ...
Ich habe momentan keine Idee, wie sich eine unbekannte Zahl von
Prozessen über eine Pipe verbinden lassen kann. Allerdings halte ich es
für sinnvoll, die Implementierung der "Module" in beliebigen
Programmiersprachen zu ermöglichen, da unterschiedliche Nutzer
unterschiedliche Sprachen beherrschen. Außerdem müsste ein Mechanismus
existieren, mittels dessen die Abarbeitungsreihenfolge der vorhandenen
Module festgelegt wird.
Vorschlag, es existiert eine Steuerdatei, die die Reihenfolge und
vollständigen Aufrufe der Module für eine bestimmte Zielvarietät
enthält. Diese Steuerdatei wird von einem (möglichst) in Shell
geschriebenen Skript abgearbeitet. Die Ausführungszeit mag bei einem
solchen generischen Ansatz etwas leiden, aber Muster werden ja nicht so
häufig erzeugt.
Viele Grüße,
Stephan Hennig
Mehr Informationen über die Mailingliste Trennmuster