[Trennmuster] Weiterentwicklung des Kurzformats

Werner LEMBERG wl at gnu.org
Fr Mär 16 18:00:41 CET 2018


> Im Moment dreht sich die Diskussion wohl vor allem darum, auf
> welchem Wege das Langformat der Liste in das neue Kurzformat
> konvertiert werden soll.  Da will ich mich gar nicht weiter
> einmischen.
>
> Doch bin ich der Meinung, dass das Ergebnis einer solchen
> Konvertierung noch nicht den wünschenswerten Endzustand der
> Kurzliste darstellen kann

Da widerspreche ich Dir.  Wie Günter schon angemerkt hat, sind die
Probleme *identisch*!  Die verlustfreie Konvertierung garantiert, daß
wir (a) keine Einträge übersehen und (b) keine Falscheinträge
erzeugen.

> 1. Nach Möglichkeit erhält jedes Wort nur einen Eintrag.
>
> Anfangs habe ich mich in der Wortliste – ich meine die bisherige
> Langform – immer gewundert, dass sich Formen wie „Beschluss“ und
> „Beschluß“ nicht in derselben Zeile befinden, obwohl es sich um das
> gleiche Wort handelt.

Nun, das Langformat ist beschreibend, während das Kurzformat erzeugend
ist.  Ersteres ist computermäßig deutlich einfacher zu handhaben.

> [...] Warum nicht vereinfachen zu
>
>   auf<ge<raut;auf<ge<rauht
>   de<plat-ziert;de<pla-ziert
>   Ur<laubs=tipp;Ur<laubs=tip
>   Zier=rat;Zie-rat            ?

Ja.  Wir sind noch nicht soweit :-)

> 2. Jedes Wort existiert in jeder Rechtschreibung.
>
> Die Reform von 1996 war keine Sprachreform, sondern eine
> Rechtschreibreform.  Es wurden weder Wörter abgeschafft noch neu
> eingeführt.  Lediglich die Schreibung hat sich in vielen Fällen
> verändert.  Felder auszukreuzen ist daher generell nicht nötig.

Ich glaube, mit »auskreuzen« meint Günter bloß ein technisches Detail
der Formatkonvertierung.  Wir sind alle Deiner Meinung, denk' ich mal.

> Aus
>
>   Bass;-2-;Bass;Bass;Bass
>   -1-;rauh
>
> mache
>
>   Bass;Baß
>   rau;rauh        .

Ja.  Da haben sich wohl E-Mails gekreuzt, denn Günter und ich haben
das gerade besprochen.

> Falls dreibuchstabige Wörter für die Trennmustererzeugung mit Patgen
> ein Problemdarstellen sollten, könnte das vorbereitende Skript diese
> einfach aussortieren.

Sie stellen überhaupt kein Problem da, denn sie werden sowieso
ignoriert.  Ich hab' damals, als ich mit der Liste angefangen habe,
sie aus rein pragmatischen Gründen entfernt, um nämlich die Anzahl der
Einträge zu begrenzen.

> Statt
>
>   Bett=tuch;Be[t=t/{tt/tt=t}]uch
>   Bet=tuch;-2-
>   Bus=sys-tem;Bus=sy-.stem;Bus=sys-tem;Bus=sy-.stem;-5-
>   Buß=sys-tem;Buß=sy-stem;Buss=sys-tem;Buss=sy-stem;Bu[s=s/{ss/ss=s}]y-.stem
>   schoss;Schoß;schoss;schoss;schoss # schoß und Schoß
>   Schoß;-2-;-3- # schoß und Schoß
>
> verwende
>
>   Bet=tuch
>   Bett=tuch
>   Bus=sys-tem;Bus=sy-.stem
>   Buß=sys-tem
>   schoss
>   Schoß

Ja, auch das hat Günter kürzlich als Endziel erwähnt, und ich stimme
dem zu.  Da übrigens in »Bus=sy-.stem« der Punkt automatisch erzeugt
wird, würde

  Bus=sys-tem

als Eintrag genügen.  Unterschätze aber bitte nicht die Arbeit an den
Skripten, so etwas zu implementieren.  Wie schon oben erwähnt, nähern
wir uns iterativ einer optimalen Repräsentation an, und wir müssen aus
Kontrollzwecken immer noch zwischen Lang- und Kurzformat konvertieren
können.

> Aus
>
>   auf<wän-dig;-2-
>   auf<wen-dig
>   Busi-ness;Busi-ness
>   -1-;Busi-neß;-3-;-4-;-5-
>   Ge<schoss
>   Ge<schoß;-2-;-3- # österr. auch in Reformschreibung
>   -1-;Zwi-schen=stop
>   Zwi-schen=stopp
>
> wird dann unter Anwendung der Regeln 1 und 2
>
>   auf<wän-dig;auf<wen-dig
>   auf<wen-dig
>   Busi-ness # eingedeutschte Schreibung, ß in AR
>   Busi-ness;Busi-ness # englische Schreibung
>   Ge<schoss
>   Ge<schoß # österr. Nebenform mit langem o .
>   Zwi-schen=stopp
>   Zwi-schen=stopp;Zwi-schen=stop

Ja.  Ebenfalls ein Endziel.

> Diese Regel ist so noch nicht ganz befriedigend, da sie viele Wörter
> verdoppelt, die in einer Rechtschreibvariante zwei Schreibungen
> haben.

Das spielt keine Rolle; der Blechtrottel kann Doubletten bequem
herausfiltern.

> Evtl. könnte man eine neue Kurzschreibweise einführen, die es
> erlaubt, zwei Schreibungen in einem Eintrag unterzubringen, oder man
> erlaubt in diesen Fällen das Auskreuzen doch wieder.

Günter schlägt stattdessen Kommentare vor, z.B.

  auf<wen-dig # auch in NR erlaubt

Ein Konversionsskript (bzw. ein Verifikationsskript) könnte solche
Kommentare berücksichtigen.  Ich denke, dieser Vorschlag ist
ausreichend.

> Wenn ich nichts übersehen habe, sind die Schreibungen der bisher
> vorgesehenen Felder 3 bis 5 durch Regeln aus den Feldern 1 und 2
> herleitbar.  Zumindest könnten die Felder 3 bis 5 in den
> allermeisten Fällen wegfallen.

So soll's sein, ja.

> Für die automatische Erzeugung von Beugungsformen wird auf Dauer ein
> weiteres Feld nötig, das Auskunft über die Art der Beugung gibt.

Das ist Zukunftsmusik :-)


    Werner




Mehr Informationen über die Mailingliste Trennmuster