[Trennmuster] neuer Arbeitsansatz
Guenter Milde
milde at users.sf.net
Sa Nov 5 00:20:46 CET 2016
On 4.11.16, Stephan Hennig wrote:
> Am 04.11.2016 um 16:40 schrieb Guenter Milde:
> > Feldbelegung im Kurzformat (Vorschlag)
> >
> > Sprachtags nach [BCP47]_.
> > `Tags for Identifying Languages`, http://www.rfc-editor.org/rfc/bcp/bcp47.txt
> >
> > 1 'de':
> > Wort mit Trennungen nach aktueller Rechtschreibung (de-1996).
> > Einziges Feld, falls andere Varianten über Regeln gewonnen werden können.
> >
> > "-1-" falls die Schreibung in de-1996 unzulässig ist (-1-;Pro<zeß).
> >
> > 2 'de-1901':
> > Wort mit Trennung nach de-1901 falls abweichend von der regelbasierten
> > Ableitung aus "de".
> >
> > "-2-" falls die Schreibung in de-1901 unzulässig ist (Ur<laubs=tipp;-2-).
> >
> > 3 'de-CH' oder 'de-x-GROSS':
> > Wort mit SZ-Ersatzschreibung, die entweder in
> > der Schweiz oder mit Großbuchstaben oder Kapitälchen benutzt wird.
> > Trennungen nach aktueller Rechtschreibung (de-CH-1996, de-1996-x-GROSS).
> >
> > "-3-" falls die Schreibung in de-CH-1996 unzulässig ist und weitere Felder
> > folgen.
> >
> > 4 'de-1901-x-GROSS':
> > Wort mit SZ-Ersatzschreibung für de-1901 mit Großbuchstaben oder
> > Kapitälchen.
> > Belegt, falls abweichend von der regelbasierten Ableitung aus "de-x-GROSS".
> >
> > "-4-" falls die abgeleitete Schreibung in de-1901 unzulässig ist.
> >
> > 5 'de-CH-1901':
> > Wort mit SZ-Ersatzschreibung, die der Schweiz benutzt wird.
> > Insbesondere Wörter mit „sss“ gefolgt von einem Vokal, die wie
> > andere Dreifachkonsonanten gehandhabt wurden (also anders, als
> > bei Ersatzschreibung in Deutschland und Österreich), z.B. „süssauer“
> > Belegt, falls abweichend von der regelbasierten Ableitung aus "de-CH".
> >
> > "-5-" falls die abgeleitete Schreibung in de-CH-1901 unzulässig ist.
> Kannst du zum besseren Verständnis bitte Beispiele für
> süsssauer
> süssauer
> angeben?
-1-;-2-;süss=sau-er;süss=sau-er;-5-
-1-;-2-;-3-;-4-;sü{ss/ss=s}au-er
> Sollen diese Formen überhaupt explizit aufgeführt werden?
Falls die abgeleitete Schreibung nicht mit der gewünschten übereinstimmt
(z.B wegen expliziter Ungünstigkeitsmarkierung oder anderere
Unregelmäßigkeiten).
Ob ansonsten zu jeder Schreibung oder nur zu jedem Wort ein Eintrag
gewünscht ist hatte ich ja angefragt.
Also, ob wir dann ggf. im "wortlisten" Zweig
süß=sau-er;süß=sau-er;süss=sau-er;süss=sau-er;sü{ss/ss=s}au-er
schreiben.
> Lassen die sich nicht weitgehend ableiten (und die Formen mit "sz"
> gleich dazu)?
Weitgehend, ja.
Die Frage ist,
* ob alle Felder eines Eintrags den gleichen "Schlüssel" haben
sollen.
* ob Einträge die sich aus Einträgen mit anderem Schlüssel generieren lassen
(z.B. -1-;Faß=brau-se aus Fass=brau-se) weggelassen werden können/sollen.
> Wenn automatische Transformationen schon stattfinden, halte ich es für
> sinnvoll, den Vorgang modular zu gestalten und beliebige
> Transformationen durch Nutzer zu unterstützen. Beispiele wären
> * Ableiten bzw. Extrahieren von de-1901
> * Ableiten bzw. Extrahieren von de-1901-CH
> * Unterbinden von Trennungen markiert mit ...
> * -"- ..
> * -"- .
> * " " Sprechsilben in de-1996
> * " " sämtlichen Stammtrennungen
> * Ableiten von ss-Schreibungen
> * Ableiten von sz-Schreibungen
> * beliebige weitere individuelle Manipulationen, etwa Unterbinden
> der Trennung ti-on u. ä.
> * Ableiten von Ligaturmustern
> * Ableiten von Rund-s-Mustern
> * ...
Hier geht es zunächst um eine Spezifikation des neuen Datenformats, nicht
darum was wir alles damit machen können.
Wir brauchen dazu die Transformationen um das bisherige Wortlisten-Format
(Langform) zu rekonstruieren.
Diese müssen auch relativ schnell sein, da die Auswirkung jeder
(mittelgroße) Änderung in den "wortlisten" auf die generierte Wortliste
vor einem Kommit geprüft werden soll(te).
Andere Transformationen (Extraktion von patgen-Eingabedateien) kommen später.
> Ich habe momentan keine Idee, wie sich eine unbekannte Zahl von
> Prozessen über eine Pipe verbinden lassen kann. Allerdings halte ich es
> für sinnvoll, die Implementierung der "Module" in beliebigen
> Programmiersprachen zu ermöglichen, da unterschiedliche Nutzer
> unterschiedliche Sprachen beherrschen. Außerdem müsste ein Mechanismus
> existieren, mittels dessen die Abarbeitungsreihenfolge der vorhandenen
> Module festgelegt wird.
> Vorschlag, es existiert eine Steuerdatei, die die Reihenfolge und
> vollständigen Aufrufe der Module für eine bestimmte Zielvarietät
> enthält. Diese Steuerdatei wird von einem (möglichst) in Shell
> geschriebenen Skript abgearbeitet. Die Ausführungszeit mag bei einem
> solchen generischen Ansatz etwas leiden, aber Muster werden ja nicht so
> häufig erzeugt.
Die Steuerdatei könnte genausogut so wie bisher das Makefile sein.
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster