[Trennmuster] Entscheidungsmuster für Binnen- und Schluss-S in Frakturschriften
Werner LEMBERG
wl at gnu.org
Fr Jan 27 21:15:39 CET 2012
Hallo Günter!
> Nach Anwendung eines Python-Skripts mit Konversionsregeln (+ einigen
> Spezialfällen) auf die Wortliste erhalte ich für die traditionelle
> Rechtschreibung (de-DE-1901):
>
> | Gesamtwortzahl (traditionelle Rechtschreibung) 417629
> | Automatisch konvertiert 411341
> | nur in neuer Rechtschreibung 4653
> | Schweizer und Großschreibvarianten 8745
> | Wichtung der Trennstellen fehlt 6280
> | noch offen 8
Das schaut doch ganz gut aus!
> Der größte Teil der noch offenen Fälle kann durch Wichtung der
> Trennstellen (z.B. mit dem SiSiSi-Algorithmus) gelöst werden.
Das geht nur manuell, denn...
> Gibt es schon Ansätze, SiSiSi über die Wortliste laufen zu
> lassen?
dies ist bereits geschehen und eingebaut.
> Wie ist mit Trennungen nach übliche Vorsilben (aus-, bis-, ...) zu
> verfahren: Haupt- oder Nebentrennstelle?
Ich betrachte diese Trennstellen als Haupttrennstellen.
Beachte bitte, daß ich die Hauptarbeit in einen Zweig des
git-Repositoriums investiert habe:
> git branch
* Keine-Haupttrennstellen-in-zweisilbigen-Wörtern
master
Da sind mehr Haupttrennstellen kontrolliert und ergänzt.
> * Wörter mit identischer Schreibung ohne lang-s:
>
> - Wach[s/ſ]tube, As/Aſ, ...?
Die sollten separiert werden. Derzeit:
Wachstube;Wach[·s/s·]tu·be
(»·« markiert ungewichtete Trennstellen).
Mit »s« und »ſ«:
Wachstube;Wachs=tu-be
Wachſtube;Wach=ſtu·be
Ein Skript, das »ſ« wieder nach »s« konvertiert, müßte solche Fälle
finden und Trennstellen entsprechend unterbinden.
> * Probleme der Wortliste:
>
> - Trennung nach ß fehlt (?): ``Abgußsaal;-2-;Ab·gußsaal;-4-``
Im git-Repositorium steht
Abgußsaal;-2-;Ab·guß·saal;-4-
wurde also schon korrigiert (obwohl ich mich nicht errinnern kann, daß
das einmal falsch gewesen wäre).
> - Abkürzungen (Ausg, hrsg, insb msec, nsec) (Wirklich ohne Punkt
> ins Wörterverzeichnis?)
Ja, ohne Punkt im Wörterverzeichnis: Erstens hat der Punkt eine
spezielle Bedeutung in der Liste (er markiert zu unterdrückende
Trennstellen), zweitens ist es dem Trennalgorithmus egal :-)
> * Reformschreibung mit lang-s?
Wäre durchaus möglich, aber wer braucht das?
> Bei Interesse kann ich das Skript und die generierte Wortliste ins
> Netz stellen oder schicken.
Bitte schick doch das Skript an die Liste!
Werner
Mehr Informationen über die Mailingliste Trennmuster