[Trennmuster] Notschreibweisen für Umlaute etc.

Werner LEMBERG wl at gnu.org
Mo Jun 1 23:22:35 CEST 2020


Hallo Gisbert!


> Hat es auf dieser Liste mal eine Diskussion darüber gegeben, wie die
> Wortliste mit „Notschreibweisen“ wie ä -> ae, ö -> ue und ü -> ue
> umgehen sollte?

Ich glaube nicht.

> Anlass für meine Frage ist, dass ich auf Worttrennungen wie
> „ent-zu-en-dungs-test“ und „eis-gru-en“ gestoßen bin, als ich einen
> Text hineinschob, der -- aus welchen Gründen auch immer – diese
> asciifizierte Schreibweise verwendete.

Oh :-)

> Betroffen sind außer den genannten deutschen Umlauten auch einige
> andere Wortlisteneinträge wie Š (in Škoda), was Tschechen in der
> Regel S (Skoda) schreiben, wenn sie mit Nichtslawen kommunizieren,
> Œuvre (-> Oeuvre) oder Ålborg (was in der Wortliste ausschließlich
> in der „Notschreibweise“ Aalborg erscheint) und drei Handvoll
> weiterer (à á â ç è é ê ë í î ï ñ ó ô). ( „ß“ -> „ss“ ist kein
> Problem, den Schweizern sei Dank.)
>
> 1. Ignorieren: Die Notschreibweise entspricht nicht der deutschen
>    Rechtschreibung und kann/sollte daher ignoriert werden.
>    (GIGO-Prinzip).

Mhmm.

> 2. Laissez-faire: Alle Wortlisteneinträge, die Umlaute
>    etc. enthalten, werden in Notschreibweise gedoppelt zusätzlich
>    aufgenommen.  Das beträfe zurzeit rund 20% der Einträge.  Was das
>    mit den erzeugten Trennmustern machte, kann ich nicht abschätzen.

Das gefällt mir besser, und wahrscheinlich wird das gut alles
getrennt, da habe ich keine großen Zweifel.  Die Frage ist allerdings,
was davon in die Liste soll.  Gibt es Fälle, die nicht algorithmisch
abgeleitet werden können?  Wenn ja, wie markieren wir das?


    Werner




Mehr Informationen über die Mailingliste Trennmuster