[Trennmuster] Neues Wortlistenformat

Keno Wehr wehr at abgol.de
Sa Mai 16 20:45:36 CEST 2020


> Dieses Format finde ich unglücklich gewählt, da es durch die Verschiebung
> der alten Felder 2 bis 5 für alle Werkzeuge, die mehr als ein Feld
> auslesen inkompatibel ist (sort.py ist da nur die Spitze des Eisbergs).

Die Kompatibilität mit Skripten hatte ich nicht im Blick, da ich davon 
ausgegangen bin, dass vor der weiteren Verarbeitung eine Konversion ins 
Kurzformat erfolgt. Wichtig ist mir hingegen die leichte Les- und 
Bearbeitbarkeit durch den menschlichen Benutzer.
Daher möchte ich kein Auffüllen mit bis zu vier Leerfeldern und auch 
keine Extradatei.

> Vorschläge für ein kompatibles Grammatisches_Kurzformat:
>
> * Mit geringerem Aufwand könnte das Grammatikfeld berücksichtigt werden,
>    wenn es an letzter Position der Inhaltsfelder stünde.
>    
>    Bei einfachem Anhängen muss das Verarbeitungsprogramm wissen, um welches
>    Format es sich handelt.
>    Wenn ein neues Trennzeichen verwendet wird, kann diese Angabe entfallen
>   
>      Aa=dorf:U # geogr. Name
>      -1-;an<ge<rauht:A

Das finde ich gut brauchbar. Zudem hat es den Vorteil, dass die 
ausdrückliche Markierung unflektierbarer Formen dann gänzlich entfallen 
könnte, was die Benutzung nochmals vereinfacht.

> * Volle Rückwärtskompatibilität wäre mit der Verlegung des Grammatikfeldes
>    in den Kommentar erreichbar, z.B.
>   
>      Aa=dorf # U # geogr. Name
>      -1-;an<ge<rauht # A

Das gefällt mir nicht so. Das Wesen eines Kommentars ist, dass er von 
der Maschine ignoriert wird. Beim Umwandeln vom gramm. Kurzformat ins 
Kurzformat muss die Maschine aber gerade die Beugungsinformation auswerten.

Vielleicht können wir uns auf eine der folgenden Varianten einigen:
-1-;an<ge<rauht:A # Doppelpunkt als Trennzeichen
-1-;an<ge<rauht A # Leerzeichen als Trennzeichen
-1-;an<ge<rauht(A) # Grammatikfeld in Klammern
-1-;an<ge<rauht (A) # Klammern und Leerzeichen

> In jedem Fall wäre es gut, auf die vorhandenen Transformationsregeln und
> Wandelungsprogramme der Rechtschreibprüfprogramme aufzubauen.

Es wäre sicher lohnenswert, sich das anzusehen, aber ich halte es nicht 
für zwingend erforderlich, da das grammatische Kurzformat nur eine 
interne Arbeitshilfe sein soll.

Auf jeden Fall muss sichergestellt sein, dass bei der Umwandlung 
Kurzformat -> grammatisches Kurzformat -> Kurzformat wieder exakt das 
gleiche herauskommt. Ob man das mit externen Algorithmen hinbekommt, 
muss man sehen.

Keno



Mehr Informationen über die Mailingliste Trennmuster