[Trennmuster] Weiterentwicklung des Kurzformats

Guenter Milde milde at users.sf.net
Sa Mär 17 00:31:36 CET 2018


Liebe Trennfreunde,

On 16.03.18, Werner LEMBERG wrote:
> Keno Wehr wrote:

> > Im Moment dreht sich die Diskussion wohl vor allem darum, auf
> > welchem Wege das Langformat der Liste in das neue Kurzformat
> > konvertiert werden soll.  Da will ich mich gar nicht weiter
> > einmischen.

Es geht ebenfalls um die Gestaltung des neuen Formats. Selbst wenn das
nicht immer sauber von der Implementierung der Konversion zu trennen ist,
ist hier Input gern gesehen -- auch von Leuten, die sich um die
Konversions-Details nicht kümmern wollen. In diesem Sinne, Danke für
deinen Beitrag, Keno!

> > Doch bin ich der Meinung, dass das Ergebnis einer solchen
> > Konvertierung noch nicht den wünschenswerten Endzustand der
> > Kurzliste darstellen kann

> Da widerspreche ich Dir.  Wie Günter schon angemerkt hat, sind die
> Probleme *identisch*!  

Es gibt schon Unterschiede und Desiderata. Das wollen wir diskutieren.

Aber es ist auch "Jammern auf hohem Niveau": Nur 1300 Einträge (0.3 %)
der Kurzliste haben mehr als ein Feld und Ausnahmen wird es bei der
Beschreibung einer natürlichen Sprache immer geben.

> Die verlustfreie Konvertierung garantiert, daß
> wir (a) keine Einträge übersehen und (b) keine Falscheinträge
> erzeugen.

Ja, die verlustfreie Konvertierung will ich behalten, aber auch da gibt
es weiteren Gestaltungsspielraum.

> > 1. Nach Möglichkeit erhält jedes Wort nur einen Eintrag.

Aber was ist ein Wort? 
Da gibt es einerseits "Teekesselchen" mit mehreren Bedeutungen zu einer
Schreibung und andererseits Alternativschreibungen für ein Wort.

Wir gestalten ja kein Wörterbuch oder Lexikon, insofern sollte das
Kriterium auch nicht die Semantik sondern die Schreibung/Trennung sein.

Bei regelmäßiger Ableitung kann die Zusammenfassung automatisch
erfolgen (und das machen wir ja schon für Dreikonsonantenregel und ß).

> > Anfangs habe ich mich in der Wortliste – ich meine die bisherige
> > Langform – immer gewundert, dass sich Formen wie „Beschluss“ und
> > „Beschluß“ nicht in derselben Zeile befinden, obwohl es sich um das
> > gleiche Wort handelt.

Das kann aber selbst im Duden vorkommen. Und andererseits schätze ich es
sehr, dass ich mit einer ganz normalen Suche im Texteditor sofort die Zeile
mit den Trennungen eines Wortes finde.


> > [...] Warum nicht vereinfachen zu
> >
> >   auf<ge<raut;auf<ge<rauht
> >   de<plat-ziert;de<pla-ziert
> >   Ur<laubs=tipp;Ur<laubs=tip
> >   Zier=rat;Zie-rat            ?

> Ja.  Wir sind noch nicht soweit :-)

Es ist bereits möglich, manuell diese Zusammenfassungen zu machen -- die
Konvertierung in das Langformat bleibt identisch.

Mit einer Liste der geänderten Wörter oder einer Ähnlichkeitsanalyse ließe
sich sicher auch die Konvertierung Langform->Kurzform so gestalten.
Angesichts des Aufwands hat das für mich aber keine Priorität.

Mein Ansatz ist, Regelmäßiges in die Konvertierungsskripte, Spezialfälle
explizit machen. Das gibt dann z.B.

  Fluss
  Diens-te
  
aber

  de<plat-ziert;-2-
  -1-;de<pla-ziert


> > 2. Jedes Wort existiert in jeder Rechtschreibung.
> >
> > Die Reform von 1996 war keine Sprachreform, sondern eine
> > Rechtschreibreform.  Es wurden weder Wörter abgeschafft noch neu
> > eingeführt.  Lediglich die Schreibung hat sich in vielen Fällen
> > verändert.  Felder auszukreuzen ist daher generell nicht nötig.

Unsere Liste ist aber eine Trennliste und da geht es nur um die
Rechtschreibung. In vielen Fällen wurden zusätzliche Schreibvarianten
abgeschafft oder eingeführt - für unsere Liste ist die Variante dann ein
neues/gestrichenes Wort.

(Davon unabhängig ist der kontinuierliche Sprachwandel nach 20 Jahren
schon spürbar und für manche neue Begriffe ist keine "traditionelle"
Schreibung belegt. Wenn wir die Mindesthäufigkeitsgrenze für einen
Eintrag in der Wortliste genau nehmen gibt es da durchaus Auf- und
Abstiegskandidaten.)

> Ich glaube, mit »auskreuzen« meint Günter bloß ein technisches Detail
> der Formatkonvertierung.  Wir sind alle Deiner Meinung, denk' ich mal.

Formal gibt es in 5-Spalten-Format keine Beschränkung welche Einträge auf
eine Zeile dürfen. 

Theoretisch kann ich sogar beliebige Wörter auf eine Zeile setzen und mit
der Kombination

  be<hän-de;Busi-neß

Platz sparen und Leerfelder vermeiden. Aber praktischer find ich das
Auskreuzen schon.

> > Aus
> >
> >   Bass;-2-;Bass;Bass;Bass
> >   -1-;rauh
> >
> > mache
> >
> >   Bass;Baß
> >   rau;rauh        .

> Ja.  Da haben sich wohl E-Mails gekreuzt, denn Günter und ich haben
> das gerade besprochen.

Die 3buchstabigen ß-Wörter sind jetzt drin. Die Kurzform ist nun:

  Bass
  -1-;rauh

denn das unregelmäßige "rau" bliebe (zumindest vorerst) sowieso auf
eigener Zeile.


> > Statt
> >
> >   Bett=tuch;Be[t=t/{tt/tt=t}]uch
> >   Bet=tuch;-2-
> >   Bus=sys-tem;Bus=sy-.stem;Bus=sys-tem;Bus=sy-.stem;-5-
> >   Buß=sys-tem;Buß=sy-stem;Buss=sys-tem;Buss=sy-stem;Bu[s=s/{ss/ss=s}]y-.stem
> >   schoss;Schoß;schoss;schoss;schoss # schoß und Schoß
> >   Schoß;-2-;-3- # schoß und Schoß
> >
> > verwende
> >
> >   Bet=tuch
> >   Bett=tuch
> >   Bus=sys-tem;Bus=sy-.stem
> >   Buß=sys-tem
> >   schoss
> >   Schoß

> Ja, auch das hat Günter kürzlich als Endziel erwähnt, und ich stimme
> dem zu.
...

Für schoss/Schoß und Geschoß/Geschoss sehe ich 

   Geschoss
   Geschoß
   schoss
   Schoß

auch als Zielvorstellung an.

Bei Wörtern mit unterschiedlicher Trennung bei gleicher Schreibung bin ich
für identische, explizite Auszeichnung der Mehrdeutigkeit infolge der
Dreikonsonantenregel:

   Bett=tuch;Be[t=t/{tt/tt=t}]uch
   Bet=tuch;Be[t=t/{tt/tt=t}]uch
   Bus=sys-tem;Bus=sy-.stem;Bus=sys-tem;Bus=sy-.stem;Bu[s=s/{ss/ss=s}]y-.stem
   Buß=sys-tem;Buß=sy-stem;Buss=sys-tem;Buss=sy-stem;Bu[s=s/{ss/ss=s}]y-.stem

Wir erhalten uns damit eine wichtige Möglichkeit der Fehlerkontrolle:
Alle gleich geschriebenen Wörter einer Sprache sollten identische
Trennstellenkenzeichnung aufweisen.


> > Aus
> >
> >   auf<wän-dig;-2-
> >   auf<wen-dig
> >   Busi-ness;Busi-ness
> >   -1-;Busi-neß;-3-;-4-;-5-
> >   Ge<schoss
> >   Ge<schoß;-2-;-3- # österr. auch in Reformschreibung
> >   -1-;Zwi-schen=stop
> >   Zwi-schen=stopp
> >
> > wird dann unter Anwendung der Regeln 1 und 2
> >
> >   auf<wän-dig;auf<wen-dig
> >   auf<wen-dig
> >   Busi-ness # eingedeutschte Schreibung, ß in AR
> >   Busi-ness;Busi-ness # englische Schreibung
> >   Ge<schoss
> >   Ge<schoß # österr. Nebenform mit langem o .
> >   Zwi-schen=stopp
> >   Zwi-schen=stopp;Zwi-schen=stop

> Ja.  Ebenfalls ein Endziel.

Zumindest bei

  Busi-ness # eingedeutschte Schreibung, ß in AR
  Busi-ness;Busi-ness # englische Schreibung
  Ge<schoss
  Ge<schoß # österr. Nebenform mit langem o .

aber bei neuen oder gestrichenen Varianten ist das Auskreuzen wie

  auf<wän-dig;-2-
  auf<wen-dig
  -1-;Zwi-schen=stop
  Zwi-schen=stopp

einfacher, kürzer und deutlicher.

Außerdem vereinfacht sie die Bildung eines eindeutigen Schlüssels für den
Gesamteintrag (erstes nichtleeres Feld ohne Trennzeichen). Bei Doppelung des
ersten Feldes müssten Schlüssel gegebenenfalls mehrere Felder umfassen.


> > Diese Regel ist so noch nicht ganz befriedigend, da sie viele Wörter
> > verdoppelt, die in einer Rechtschreibvariante zwei Schreibungen
> > haben.

> Das spielt keine Rolle; der Blechtrottel kann Doubletten bequem
> herausfiltern.

Der schon, aber es geht uns hier ja um eine wartungsfreundliche Variante der
Wortliste.

> > Evtl. könnte man eine neue Kurzschreibweise einführen, die es
> > erlaubt, zwei Schreibungen in einem Eintrag unterzubringen, oder man
> > erlaubt in diesen Fällen das Auskreuzen doch wieder.

> Günter schlägt stattdessen Kommentare vor, z.B.

>   auf<wen-dig # auch in NR erlaubt

> Ein Konversionsskript (bzw. ein Verifikationsskript) könnte solche
> Kommentare berücksichtigen.  Ich denke, dieser Vorschlag ist
> ausreichend.

Eher nicht. Kommentare sind für die Pflege und Dokumentation der Liste
(durchaus auch mit Hilfskripten). Die Anwendungsfälle (Sortierung,
Konversation, Extraktion) dürfen nicht auf Kommentare angewiesen sein.

Für Fälle, wo die automatische Berechnung der Felder bei zwei Zeilen das
identische Ergebnis liefert finde ich ein Auskreuzen nicht nötig (lieber
mehrfache Bildung zulassen). Aber für Fälle, wo eine Schreibweise in einer
Sprache gar nicht vorkommt halte ich das Auskreuzen für die beste Wahl.


> > Wenn ich nichts übersehen habe, sind die Schreibungen der bisher
> > vorgesehenen Felder 3 bis 5 durch Regeln aus den Feldern 1 und 2
> > herleitbar.  Zumindest könnten die Felder 3 bis 5 in den
> > allermeisten Fällen wegfallen.

> So soll's sein, ja.

Bis auf Ausnahmen wie die Markierung von ungünstigen Stellen und
Mehrdeutigkeiten.


> > Für die automatische Erzeugung von Beugungsformen wird auf Dauer ein
> > weiteres Feld nötig, das Auskunft über die Art der Beugung gibt.

> Das ist Zukunftsmusik :-)

und orthogonal zur Berücksichtigung der Sprachvarietäten.



Mehr Informationen über die Mailingliste Trennmuster