[Trennmuster] neuer Arbeitsansatz

Werner LEMBERG wl at gnu.org
Mo Okt 24 09:21:43 CEST 2016


>> Es gibt nun einen Zweig »wortlisten« im git-Repositorium, der einen
>> neuen Ansatz zur Wortlistengenerierung bieten soll.  Die Grundidee
>> ist, ausschließlich Wörter in reformierter Schreibweise zu
>> speichern, und ein Skript erzeugt die anderen Trenn- und
>> Wortformen.
>
> Volle Zustimmung!

Das freut mich.

> So etwas habe ich schon länger im Hinterkopf, zum Beispiel für die
> automatische ß-Ersatzschreibung.  Ich habe mir den Zweig worlisten
> noch nicht genauer angesehen.  Kannst du daher mal beschreiben, wie
> solche Schreibungen gehandhabt werden sollen?

Die regulären Ausdrücke, um NR in AR zu transformieren, findest Du im
Skript »erzeuge-wortliste.pl«.  Ich habe versucht, das alles ausgiebig
zu dokumentieren.

> Lassen sich insbesondere sz-Schreibungen für die traditionelle
> Rechtschreibung einfach der Patgen-Eingabe hinzufügen?

Das sollte eigentlich kein Problem sein – Du hast recht, daran habe
ich bis jetzt überhaupt nicht gedacht, das wird von uns noch gar nicht
abgedeckt.  Bei Gelegenheit werde ich das ergänzen.

Wie wurde übrigens »SZ« in der Schweiz gehandhabt?

>> 2. Ich habe die Gelegenheit genutzt, die Eingabedaten in mehrere
>>    Dateien aufzuspalten.  Das erleichtert und beschleunigt die
>>    Arbeit mit git.  Im Besonderen ist der sehr hilfreiche Befehl
>>    »git blame« jetzt benützbar, was bei der großen
>>    »wortliste«-Datei nicht möglich ist, weil viel zu langsam.
> 
> Hm.  Aufteilung wäre nicht meine Präferenz.

Wie erwähnt, Hauptgrund ist der so nützliche »git blame«-Befehl, der
uns eine Historie der Änderungen liefert.  Wir wollen schließlich noch
*viel* mehr Wörter ergänzen!


    Werner




Mehr Informationen über die Mailingliste Trennmuster