[Trennmuster] Entscheidungsmuster für Binnen- und Schluss-S in Frakturschriften
Guenter Milde
milde at users.sf.net
Do Jan 26 00:04:23 CET 2012
Liebe Trennmustler,
On 12.01.12, Rolf Niepraschk wrote:
> Hallo Günter,
> ich hatte Deinen Beitrag in d.c.t.t. an Werner Lemberg weitergeleitet,
> da er ja ein Fachmann für solche Themen ist. Da ich nicht weiß, ob Du
> von seiner Antwort etwas mitbekommen hast, schicke ich sie als Anhang.
> ...Rolf
Danke. Ohne diese Mail hätte ich die Trennmusterliste glatt übersehen.
> -------- Original-Nachricht --------
> Datum: Thu, 12 Jan 2012 07:34:04 +0100 (CET)
> Von: Werner LEMBERG <wl at gnu.org>
> An: trennmuster at dante.de
...
> From: Rolf Niepraschk <Rolf.Niepraschk at gmx.de>
...
> > Gibt es eigentlich ein deutsches Wörterbuch in elektronischer Form,
> > daß für das lang-s den passenden Unicode-Character ſ verwendet?
> So etwas ist mir nicht bekannt. Die Idee, »ſ« in meine Wortliste
> einzupflegen, wurde schon an mich herangetragen, und ich bin durchaus
> willens und damit einverstanden, habe aber selbst derzeit keine Zeit
> daran zu arbeiten. Es muß sich halt jemand finden, der nach dem
> Anbringen eines regulären Ausdrucks auf die ganze Liste (um »s« in »ſ«
> zu verwandeln) die Fehleinträge sucht – bei 430000 Wörtern muß man
> schon einiges Sitzfleisch mitbringen. Allerdings kann man durch
> weitere reguläre Ausdrücke so einiges ausscheiden (z.B. Wörter ohne
> »s« oder »ſ« am Silbenende), es bleibt aber bestimmt mehr als genug zu
> tun.
Nach Anwendung eines Python-Skripts mit Konversionsregeln
(+ einigen Spezialfällen) auf die Wortliste erhalte ich für die
traditionelle Rechtschreibung (de-DE-1901):
| Gesamtwortzahl (traditionelle Rechtschreibung) 417629
| Automatisch konvertiert 411341
| nur in neuer Rechtschreibung 4653
| Schweizer und Großschreibvarianten 8745
| Wichtung der Trennstellen fehlt 6280
| noch offen 8
Der größte Teil der noch offenen Fälle kann durch Wichtung der
Trennstellen (z.B. mit dem SiSiSi-Algorithmus) gelöst werden.
Gibt es schon Ansätze, SiSiSi über die Wortliste laufen zu
lassen?
Mögliche Anwendungen:
* Erstellen eines freien Wörterbuchs für Rechtschreibprüfprogramme (aspell,
...).
* Automatische s-Konversion von Dokumenten anhand der Wortliste.
* Übernahme der Regeln in ein LuaTeX Paket.
Offene Punke
------------
* Das Resultat muß noch auf weitere Ausnahmen und Sonderfälle geprüft
werden.
* Wörter mit ſ am Wort oder Silbenende:
- Tonarten/Töne: Aſ, Deſ, ...
- sz (und st, sp in Reformschreibung): aber rundes s am Wortende
Wie ist mit Trennungen nach übliche Vorsilben (aus-, bis-, ...) zu
verfahren: Haupt- oder Nebentrennstelle?
Ggf. neues Symbol: Nebentrennstelle, die aber Schluss-s verlangt?
* Wörter mit identischer Schreibung ohne lang-s:
- Wach[s/ſ]tube, As/Aſ, ...?
* Probleme der Wortliste:
- Trennung nach ß fehlt (?): ``Abgußsaal;-2-;Ab·gußsaal;-4-``
- Abkürzungen (Ausg, hrsg, insb msec, nsec)
(Wirklich ohne Punkt ins Wörterverzeichnis?)
* Reformschreibung mit lang-s?
Bei Interesse kann ich das Skript und die generierte Wortliste ins Netz
stellen oder schicken.
Mit freundlichen Grüßen,
Günter Milde
Mehr Informationen über die Mailingliste Trennmuster