[Trennmuster] Neues Wortlistenformat

Guenter Milde milde at users.sf.net
Fr Mai 15 09:44:29 CEST 2020


On 14.05.20, Keno Wehr wrote:
> Liebe Trennfreunde!

> Seit längerer Zeit beschäftigt mich die Idee, das Kurzformat der Wortliste
> durch die automatische Erzeugung von flektierten Wortformen zu optimieren.

Das ist ja für Rechtschreibprüfprogramme (ispell, aspell, hunspell) schon
lange Standard.

...

> Für das deutsche Trennmusterprojekt ist die Situation nun insofern
> komplexer, als nicht nur die Flexion ausgehend von einer Grundform
> automatisiert zu bewerkstelligen ist, sondern auch der umgekehrte Weg –
> die Bestimmung einer Grundform und ihrer Flexionsklasse aus einer
> Wortliste unter Entfernung der gebeugten Formen –, um die
> Konvertierbarkeit aus den bestehenden Wortlistenformaten (Langformat
> und Kurzformat) zu gewährleisten.

Auch das kann, so viel ich weiß mindestens eines der *spell Programme.
Dokumentation dazu gibt es z.B. bei Björn Jackes igerman98-Projekt
https://www.j3e.de/ispell/igerman98/ .

> Ein vielversprechender Anfang hierzu ist nun mit dem neuen Skript
> „beugung.lua“ gemacht. Dieses ist in der Lage, die Wortliste aus dem
> Kurzformat in ein neues Format zu überführen, das ich „grammatisches
> Kurzformat“ nennen möchte. Das grammatische Kurzformat hat sechs
> Felder. Das zweite Feld enthält die Beugungsklasse, die übrigen Felder
> entsprechen denen des Kurzformats. Gleichfalls leistet dieses Skript
> die umgekehrte Konversion vom grammatischen Kurzformat ins Kurzformat
> (mit verlustfreiem Hin- und Rückweg).

Dieses Format finde ich unglücklich gewählt, da es durch die Verschiebung
der alten Felder 2 bis 5 für alle Werkzeuge, die mehr als ein Feld
auslesen inkompatibel ist (sort.py ist da nur die Spitze des Eisbergs).

...

> Die gute Nachricht ist nun, dass es allein durch die Berücksichtigung der
> Adjektive möglich ist, den Umfang der Wortliste gegenüber dem herkömmlichen
> Kurzformat um 29 Prozent zu verringern, in absoluten Zahlen um ca. 130.000
> Einträge.

Das liegt zum Teil daran, dass gerade für die Adjektive wegen der schönen
Regelmäßigkeit eine Unmenge Einträge skriptgestützt ergänzt wurden
(und zum Großteil keinen Einfluss auf die Trennmuster haben).

Andererseits zeigen die Rechtschreibprüfprogramme das Potenzial dieses
Ansatzes.

...

> Alle nötigen Details zum neuen Format werden im Dokument
> „Grammatisches_Kurzformat.txt“ beschrieben, wo auch bereits erkannte
> Probleme aufgelistet werden. (Eines davon enthält ein „feature request“
> für „sort.py“. Kannst du helfen, Günter?)

Vorschläge für ein kompatibles Grammatisches_Kurzformat:

* Mit geringerem Aufwand könnte das Grammatikfeld berücksichtigt werden,
  wenn es an letzter Position der Inhaltsfelder stünde. 
  
  Bei einfachem Anhängen muss das Verarbeitungsprogramm wissen, um welches
  Format es sich handelt.
  Wenn ein neues Trennzeichen verwendet wird, kann diese Angabe entfallen
 
    Aa=dorf:U # geogr. Name
    -1-;an<ge<rauht:A

* Volle Rückwärtskompatibilität wäre mit der Verlegung des Grammatikfeldes
  in den Kommentar erreichbar, z.B.
 
    Aa=dorf # U # geogr. Name
    -1-;an<ge<rauht # A
 
* Alternativ kann die Grammatikinformation in einer separaten Liste erfasst
  werden. 
  
In jedem Fall wäre es gut, auf die vorhandenen Transformationsregeln und
Wandelungsprogramme der Rechtschreibprüfprogramme aufzubauen. 


Viele Grüße

Günter 



Mehr Informationen über die Mailingliste Trennmuster