[Trennmuster] neuer Arbeitsansatz
Werner LEMBERG
wl at gnu.org
So Nov 6 13:00:29 CET 2016
>> süß=sau-.er;süß=sau-.er;süss=sau-.er;süss=sau-.er;sü{ss/ss=s}au-er
>
> Finde ich eigentlich gut, sofern es sich nur um ß-Ersatzschreibungen
> handelt.
Nicht nur ß-Fälle, sondern alles, was algorithmisch ableitbar ist,
also auch Dreifachkonsonanten u.ä.
> Dagegen fände ich
>
> Stän-gel;Sten-gel
>
> schlecht.
Ja. Das geht auch nicht algorithmisch.
> Zurück zu den ß-Ersatzschreibungen. Leider lässt die vorgeschlagene
> Kodierung Raum für Kollisionen. Angenommen es existieren zwei Wörter
> syyy und yyy wobei yyy mit einem Vokal beginnt. Des weiteren existieren
> beide gültigen Zusammensetzungen mit einem Wort xxxß, also xxxß=syyy
> sowie xxxß=yyy. Die Schweizer Form wäre in beiden Fällen xxxssyyy
> abgeleitet aus zwei unterschiedlichen und auch nicht zusammengehörenden
> Zeilen. In der Ableitung aus xxxß=yyy würde die Trennung xxxss-yyy
> erlaubt, in der Ableitung aus xxxß=syyy dagegen nicht.
>
> Ich weiß nicht, ob diese Kollision praktisch auftritt. Aber wie würden
> wir damit umgehen:
>
> * eine Ausnahmedatei
Die wird's bald nicht mehr geben; wir werden die Ausnahmen in die
anderen Dateien integrieren.
> * die Ableitung aus xxxß=syyy ignorieren (Feld 5 explizit leer
> notieren)
> * Beide Wörter ignorieren?
Sobald der Algorithmus ein falsches Wort erzeugt, muß eine
Ausnahmezeile verwendet werden, welche die Ableitungen explizit
angibt. Das wären für Dein konstruiertes Beispiel also zwei Zeilen
(oder im Extremfall sogar mehr).
Es ist ganz einfach: Hat eine Zeile nur ein Feld, wird der Algorithmus
angewendet. Ansonsten werden die Einträge übernommen.
Werner
Mehr Informationen über die Mailingliste Trennmuster