[Trennmuster] Neues Wortlistenformat
Keno Wehr
wehr at abgol.de
Do Mai 14 17:29:50 CEST 2020
Liebe Trennfreunde!
Seit längerer Zeit beschäftigt mich die Idee, das Kurzformat der Wortliste
durch die automatische Erzeugung von flektierten Wortformen zu optimieren.
Praktisch umgesetzt habe ich Ähnliches bereits bei der Erzeugung der
Trennmuster für klassisches Latein. Hier drängte sich die automatische
Flexion
geradezu auf, da das Lateinische einen sehr umfangreichen, aber doch
weitgehend
regelhaft ableitbaren Formenbestand besitzt.
Ermöglicht wird die Herleitung flektierter Formen durch ein zusätzliches
Feld
in der Wortliste, das die Flexionsklasse codiert.
(Näheres zum Vorgehen beim Lateinischen hier:
https://github.com/gregorio-project/hyphen-la/blob/master/patterns/generation/README.md)
Für das deutsche Trennmusterprojekt ist die Situation nun insofern
komplexer,
als nicht nur die Flexion ausgehend von einer Grundform automatisiert zu
bewerkstelligen ist, sondern auch der umgekehrte Weg – die Bestimmung einer
Grundform und ihrer Flexionsklasse aus einer Wortliste unter Entfernung der
gebeugten Formen –, um die Konvertierbarkeit aus den bestehenden
Wortlistenformaten (Langformat und Kurzformat) zu gewährleisten.
Ein vielversprechender Anfang hierzu ist nun mit dem neuen Skript
„beugung.lua“
gemacht. Dieses ist in der Lage, die Wortliste aus dem Kurzformat in ein
neues
Format zu überführen, das ich „grammatisches Kurzformat“ nennen möchte. Das
grammatische Kurzformat hat sechs Felder. Das zweite Feld enthält die
Beugungsklasse, die übrigen Felder entsprechen denen des Kurzformats.
Gleichfalls leistet dieses Skript die umgekehrte Konversion vom
grammatischen
Kurzformat ins Kurzformat (mit verlustfreiem Hin- und Rückweg).
Für den Anfang werden allerdings nur zwei Beugungsklassen unterschieden,
nämlich Adjektive einerseits und unflektierbare Wörter (worunter
vorläufig alle
Nichtadjektive zu verstehen sind) andererseits. Für die Adjektive habe
ich mich
deshalb entschieden, weil diese sich morphologisch recht gutartig
verhalten: Es
treten immer die gleichen Endungen -e, -em, -en, -er, -es auf und es
gibt nur
wenige Unregelmäßigkeiten.
Die gute Nachricht ist nun, dass es allein durch die Berücksichtigung der
Adjektive möglich ist, den Umfang der Wortliste gegenüber dem herkömmlichen
Kurzformat um 29 Prozent zu verringern, in absoluten Zahlen um ca. 130.000
Einträge.
Das grammatische Kurzformat dürfte nützlich sein zum Einpflegen neuer
Adjektive
und für allgemeine Wartungsarbeiten, die von einem möglichst geringen
Listenumfang profitieren. Die beiden bewährten Formate der Wortliste
können und
sollen hierdurch aber nicht ersetzt werden.
Alle nötigen Details zum neuen Format werden im Dokument
„Grammatisches_Kurzformat.txt“
beschrieben, wo auch bereits erkannte Probleme aufgelistet werden.
(Eines davon
enthält ein „feature request“ für „sort.py“. Kannst du helfen, Günter?)
Probiert's mal aus.
Keno
Mehr Informationen über die Mailingliste Trennmuster