[Trennmuster] Entscheidungsmuster für Binnen- und Schluss-S in Frakturschriften

Stephan Hennig mailing_list at arcor.de
Mo Jan 30 18:42:56 CET 2012


Hallo Günter,

Am 26.01.2012 00:04, schrieb Guenter Milde:

> Der größte Teil der noch offenen Fälle kann durch Wichtung der
> Trennstellen (z.B. mit dem SiSiSi-Algorithmus) gelöst werden.
> 
> Gibt es schon Ansätze, SiSiSi über die Wortliste laufen zu
> lassen?

Wie Werner schon schrieb, ja. :)  Eine andere Idee wäre der
Duden-Korrektor, eine Extension für LibreOffice/Microsoft Office.  So
wie ich es (in Dokumenten) beobachte, trennt der Trennstil "Ästhetisch"
des Duden-Korrektors zusammengesetzte Wörter nur an Wortgrenzen.  Mir
fehlt aber momentan die Zeit, mich näher damit auseinanderzusetzen.

Immerhin kann ich berichten, dass in der demnächst erscheinenden Version
3.5 von LibreOffice <URL:http://wiki.documentfoundation.org/ReleasePlan>
einige Fehler behoben wurden, die die Worttrennung per API und das
Zusammenspiel mit dem Duden-Korrektor betreffen:

<URL:https://bugs.freedesktop.org/show_bug.cgi?id=41083>
<URL:https://bugs.freedesktop.org/show_bug.cgi?id=41128>
<URL:https://bugs.freedesktop.org/show_bug.cgi?id=37561>

Wenn jemand die Zeit dafür hat, ließe sich die Wortliste mit
entsprechenden LibreOffice-Basic-Makros dann auch mal mit dem
Duden-Korrektor trennen (mit allen Trennstellen und nur mit
Haupttrennstellen).


> * Erstellen eines freien Wörterbuchs für Rechtschreibprüfprogramme (aspell,
>   ...).

Selbstverständlich kann unsere Liste dafür verwendet werden.  Aber es
gibt auch schon einiges,
<URL:http://projekte.dante.de/Trennmuster/Korpora#Frei>


> * Automatische s-Konversion von Dokumenten anhand der Wortliste.
> 
> * Übernahme der Regeln in ein LuaTeX Paket.

Taco und Hans haben (schon vor einiger Zeit) den Vorschlag, die
Rund-s/Lang-s-Unterscheidung in LuaTeX durch entsprechende Muster zu
ermöglichen, positiv aufgenommen.  Den Trennalgorithmus wiederum wollen
sie so erweitern, dass neben musterbasierter Trennung auch eine
regelbasierte Trennung möglich wird (die Regeln wären dann vermutlich in
LPEG zu formulieren).   Meinst du, die Unterscheidung Rund-s/Lang-s
ließe sich rein formal durch Regeln erschlagen?


> * Wörter mit ſ am Wort oder Silbenende:
> 
>   - Tonarten/Töne: Aſ, Deſ, ...

Wörter mit weniger als vier Buchstaben sind momentan überhaupt nicht in
der Liste enthalten.  Die müssten wir dann hinzufügen (es, iſs, ins).


>   - sz (und st, sp in Reformschreibung): aber rundes s am Wortende

Was meinst du damit?


> * Probleme der Wortliste:
> 
>   - Abkürzungen (Ausg, hrsg, insb msec, nsec)
>     (Wirklich ohne Punkt ins Wörterverzeichnis?)

Ich denke, in die Wortliste müssen alle Zeichenketten aufgenommen
werden, die in Texten vorkommen können (mit einer Grenze bei einer
bestimmten Häufigkeitklasse).  Physikalischen Einheiten sind ein
Grenzfall, da diese in TeX in der Regel nicht ohne Auszeichnung gesetzt
werden (Paket siunitx o.ä.).  Allerdings sind die Trennmuster nicht nur
für TeX gedacht.  Daher denke ich, dass auch Einheiten in die Wortliste
aufgenommen werden sollten.  Oder gibt es für LibreOffice usw. bereits
Ausnahmewörterbücher mit physikalischen Einheiten?  Ich versuche, mich
mal schlau zu machen.

Aus demselben Grund sollten wir die Liste auch um zwei- und
dreibuchstabige Abkürzungen erweitern.  Was sich in einem Abwasch mit
dem Umstieg auf die Google-Books-Liste erledigen ließe.  Wenn ich die
Zeit dafür fände ...

Viele Grüße,
Stephan Hennig



Mehr Informationen über die Mailingliste Trennmuster