[Trennmuster] Entscheidungsmuster für Binnen- und Schluss-S in Frakturschriften

Werner LEMBERG wl at gnu.org
Fr Jan 27 21:15:39 CET 2012


Hallo Günter!


> Nach Anwendung eines Python-Skripts mit Konversionsregeln (+ einigen
> Spezialfällen) auf die Wortliste erhalte ich für die traditionelle
> Rechtschreibung (de-DE-1901):
>
> | Gesamtwortzahl (traditionelle Rechtschreibung) 417629
> | Automatisch konvertiert 411341
> | nur in neuer Rechtschreibung 4653
> | Schweizer und Großschreibvarianten 8745
> | Wichtung der Trennstellen fehlt 6280
> | noch offen 8

Das schaut doch ganz gut aus!

> Der größte Teil der noch offenen Fälle kann durch Wichtung der
> Trennstellen (z.B. mit dem SiSiSi-Algorithmus) gelöst werden.

Das geht nur manuell, denn...

> Gibt es schon Ansätze, SiSiSi über die Wortliste laufen zu
> lassen?

dies ist bereits geschehen und eingebaut.

>     Wie ist mit Trennungen nach übliche Vorsilben (aus-, bis-, ...) zu
>     verfahren: Haupt- oder Nebentrennstelle?

Ich betrachte diese Trennstellen als Haupttrennstellen.

Beachte bitte, daß ich die Hauptarbeit in einen Zweig des
git-Repositoriums investiert habe:

  > git branch

  * Keine-Haupttrennstellen-in-zweisilbigen-Wörtern
    master

Da sind mehr Haupttrennstellen kontrolliert und ergänzt.

> * Wörter mit identischer Schreibung ohne lang-s:
>
>   - Wach[s/ſ]tube, As/Aſ, ...?

Die sollten separiert werden.  Derzeit:

  Wachstube;Wach[·s/s·]tu·be

(»·« markiert ungewichtete Trennstellen).

Mit »s« und »ſ«:

  Wachstube;Wachs=tu-be
  Wachſtube;Wach=ſtu·be

Ein Skript, das »ſ« wieder nach »s« konvertiert, müßte solche Fälle
finden und Trennstellen entsprechend unterbinden.

> * Probleme der Wortliste:
>
>   - Trennung nach ß fehlt (?): ``Abgußsaal;-2-;Ab·gußsaal;-4-``

Im git-Repositorium steht

  Abgußsaal;-2-;Ab·guß·saal;-4-

wurde also schon korrigiert (obwohl ich mich nicht errinnern kann, daß
das einmal falsch gewesen wäre).

>   - Abkürzungen (Ausg, hrsg, insb msec, nsec) (Wirklich ohne Punkt
>     ins Wörterverzeichnis?)

Ja, ohne Punkt im Wörterverzeichnis: Erstens hat der Punkt eine
spezielle Bedeutung in der Liste (er markiert zu unterdrückende
Trennstellen), zweitens ist es dem Trennalgorithmus egal :-)

> * Reformschreibung mit lang-s?

Wäre durchaus möglich, aber wer braucht das?

> Bei Interesse kann ich das Skript und die generierte Wortliste ins
> Netz stellen oder schicken.

Bitte schick doch das Skript an die Liste!


    Werner


Mehr Informationen über die Mailingliste Trennmuster