[Trennmuster] Entscheidungsmuster für Binnen- und Schluss-S in Frakturschriften

Guenter Milde milde at users.sf.net
Do Jan 26 00:04:23 CET 2012


Liebe Trennmustler,

On 12.01.12, Rolf Niepraschk wrote:

> Hallo Günter,

> ich hatte Deinen Beitrag in d.c.t.t. an Werner Lemberg weitergeleitet,
> da er ja ein Fachmann für solche Themen ist. Da ich nicht weiß, ob Du
> von seiner Antwort etwas mitbekommen hast, schicke ich sie als Anhang.

> ...Rolf

Danke. Ohne diese Mail hätte ich die Trennmusterliste glatt übersehen.

> -------- Original-Nachricht --------
> Datum: Thu, 12 Jan 2012 07:34:04 +0100 (CET)
> Von: Werner LEMBERG <wl at gnu.org>
> An: trennmuster at dante.de
...

> From: Rolf Niepraschk <Rolf.Niepraschk at gmx.de>
...

> > Gibt es eigentlich ein deutsches Wörterbuch in elektronischer Form,
> > daß für das lang-s den passenden Unicode-Character ſ verwendet?

> So etwas ist mir nicht bekannt.  Die Idee, »ſ« in meine Wortliste
> einzupflegen, wurde schon an mich herangetragen, und ich bin durchaus
> willens und damit einverstanden, habe aber selbst derzeit keine Zeit
> daran zu arbeiten.  Es muß sich halt jemand finden, der nach dem
> Anbringen eines regulären Ausdrucks auf die ganze Liste (um »s« in »ſ«
> zu verwandeln) die Fehleinträge sucht – bei 430000 Wörtern muß man
> schon einiges Sitzfleisch mitbringen.  Allerdings kann man durch
> weitere reguläre Ausdrücke so einiges ausscheiden (z.B. Wörter ohne
> »s« oder »ſ« am Silbenende), es bleibt aber bestimmt mehr als genug zu
> tun.

Nach Anwendung eines Python-Skripts mit Konversionsregeln
(+ einigen Spezialfällen) auf die Wortliste erhalte ich für die
traditionelle Rechtschreibung (de-DE-1901):

| Gesamtwortzahl (traditionelle Rechtschreibung) 417629
| Automatisch konvertiert 411341
| nur in neuer Rechtschreibung 4653
| Schweizer und Großschreibvarianten 8745
| Wichtung der Trennstellen fehlt 6280
| noch offen 8

Der größte Teil der noch offenen Fälle kann durch Wichtung der
Trennstellen (z.B. mit dem SiSiSi-Algorithmus) gelöst werden.

Gibt es schon Ansätze, SiSiSi über die Wortliste laufen zu
lassen?


Mögliche Anwendungen:

* Erstellen eines freien Wörterbuchs für Rechtschreibprüfprogramme (aspell,
  ...).

* Automatische s-Konversion von Dokumenten anhand der Wortliste.

* Übernahme der Regeln in ein LuaTeX Paket.


Offene Punke
------------

* Das Resultat muß noch auf weitere Ausnahmen und Sonderfälle geprüft
  werden.

* Wörter mit ſ am Wort oder Silbenende:

  - Tonarten/Töne: Aſ, Deſ, ...

  - sz (und st, sp in Reformschreibung): aber rundes s am Wortende

    Wie ist mit Trennungen nach übliche Vorsilben (aus-, bis-, ...) zu
    verfahren: Haupt- oder Nebentrennstelle?
    Ggf. neues Symbol: Nebentrennstelle, die aber Schluss-s verlangt?

* Wörter mit identischer Schreibung ohne lang-s:

  - Wach[s/ſ]tube, As/Aſ, ...?

* Probleme der Wortliste:

  - Trennung nach ß fehlt (?): ``Abgußsaal;-2-;Ab·gußsaal;-4-``

  - Abkürzungen (Ausg, hrsg, insb msec, nsec)
    (Wirklich ohne Punkt ins Wörterverzeichnis?)

* Reformschreibung mit lang-s?


Bei Interesse kann ich das Skript und die generierte Wortliste ins Netz
stellen oder schicken.

Mit freundlichen Grüßen,

Günter Milde



Mehr Informationen über die Mailingliste Trennmuster