[Trennmuster] neuer Arbeitsansatz
Stephan Hennig
sh-list at posteo.net
So Okt 23 15:49:34 CEST 2016
Am 22.10.2016 um 18:13 schrieb Werner LEMBERG:
> Es gibt nun einen Zweig »wortlisten« im git-Repositorium, der einen
> neuen Ansatz zur Wortlistengenerierung bieten soll. Die Grundidee
> ist, ausschließlich Wörter in reformierter Schreibweise zu speichern,
> und ein Skript erzeugt die anderen Trenn- und Wortformen.
Volle Zustimmung! So etwas habe ich schon länger im Hinterkopf, zum
Beispiel für die automatische ß-Ersatzschreibung. Ich habe mir den
Zweig worlisten noch nicht genauer angesehen. Kannst du daher mal
beschreiben, wie solche Schreibungen gehandhabt werden sollen? Lassen
sich insbesondere sz-Schreibungen für die traditionelle Rechtschreibung
einfach der Patgen-Eingabe hinzufügen?
> Natürlich haben wir Ausnahmen, wo das nicht möglich ist, z.B. Wörter
> wie »Stängel« und »Stengel«, oder generell mehrdeutige Trennformen.>
> Eine solche Herangehensweise hat einige Vorteile.
>
> 1. Der Aufwand zur Einarbeitung neuer Wörter ist geringer, weil man
> sich nur um eine Rechtschreibvariante kümmern muß. Im Besonderen
> reduziert die automatische Erzeugung der alternativen Wort- und
> Trennformen manchmal nur schwer zu entdeckende Tippfehler.
Sehr sinnvoll!
> 2. Ich habe die Gelegenheit genutzt, die Eingabedaten in mehrere
> Dateien aufzuspalten. Das erleichtert und beschleunigt die
> Arbeit mit git. Im Besonderen ist der sehr hilfreiche Befehl
> »git blame« jetzt benützbar, was bei der großen »wortliste«-Datei
> nicht möglich ist, weil viel zu langsam.
Hm. Aufteilung wäre nicht meine Präferenz.
> Der einzige Nachteil ist, soweit ich das bisher überblicken kann, daß
> »wortliste« nun eine generierte Datei ist.
Ich sehe da grundsätzlich keinen Nachteil. Wenn es einen gibt, dann
lässt sich dieser vollständig durch Einsatz von Rechentechnik
(Automatisierung) kompensieren. Rechentechnik ist 2016 nach meiner
Wahrnehmung in ausreichendem Maße verfügbar.
> Auf meinem Laptop dauert's ca. 20 Sekunden, um sie zu erzeugen.
Das ist gegenüber einem Patgenlauf überhaupt nicht messbar. :-)
Viele Grüße,
Stephan Hennig
Mehr Informationen über die Mailingliste Trennmuster