[Trennmuster] Neues Wortlistenformat

Do Mai 14 17:29:50 CEST 2020

Liebe Trennfreunde!

Seit längerer Zeit beschäftigt mich die Idee, das Kurzformat der Wortliste
durch die automatische Erzeugung von flektierten Wortformen zu optimieren.

Praktisch umgesetzt habe ich Ähnliches bereits bei der Erzeugung der
Trennmuster für klassisches Latein. Hier drängte sich die automatische 
Flexion
geradezu auf, da das Lateinische einen sehr umfangreichen, aber doch 
weitgehend
regelhaft ableitbaren Formenbestand besitzt.
Ermöglicht wird die Herleitung flektierter Formen durch ein zusätzliches 
Feld
in der Wortliste, das die Flexionsklasse codiert.
(Näheres zum Vorgehen beim Lateinischen hier: 
https://github.com/gregorio-project/hyphen-la/blob/master/patterns/generation/README.md)

Für das deutsche Trennmusterprojekt ist die Situation nun insofern 
komplexer,
als nicht nur die Flexion ausgehend von einer Grundform automatisiert zu
bewerkstelligen ist, sondern auch der umgekehrte Weg – die Bestimmung einer
Grundform und ihrer Flexionsklasse aus einer Wortliste unter Entfernung der
gebeugten Formen –, um die Konvertierbarkeit aus den bestehenden
Wortlistenformaten (Langformat und Kurzformat) zu gewährleisten.

Ein vielversprechender Anfang hierzu ist nun mit dem neuen Skript 
„beugung.lua“
gemacht. Dieses ist in der Lage, die Wortliste aus dem Kurzformat in ein 
neues
Format zu überführen, das ich „grammatisches Kurzformat“ nennen möchte. Das
grammatische Kurzformat hat sechs Felder. Das zweite Feld enthält die
Beugungsklasse, die übrigen Felder entsprechen denen des Kurzformats.
Gleichfalls leistet dieses Skript die umgekehrte Konversion vom 
grammatischen
Kurzformat ins Kurzformat (mit verlustfreiem Hin- und Rückweg).

Für den Anfang werden allerdings nur zwei Beugungsklassen unterschieden,
nämlich Adjektive einerseits und unflektierbare Wörter (worunter 
vorläufig alle
Nichtadjektive zu verstehen sind) andererseits. Für die Adjektive habe 
ich mich
deshalb entschieden, weil diese sich morphologisch recht gutartig 
verhalten: Es
treten immer die gleichen Endungen -e, -em, -en, -er, -es auf und es 
gibt nur
wenige Unregelmäßigkeiten.

Die gute Nachricht ist nun, dass es allein durch die Berücksichtigung der
Adjektive möglich ist, den Umfang der Wortliste gegenüber dem herkömmlichen
Kurzformat um 29 Prozent zu verringern, in absoluten Zahlen um ca. 130.000
Einträge.

Das grammatische Kurzformat dürfte nützlich sein zum Einpflegen neuer 
Adjektive
und für allgemeine Wartungsarbeiten, die von einem möglichst geringen
Listenumfang profitieren. Die beiden bewährten Formate der Wortliste 
können und
sollen hierdurch aber nicht ersetzt werden.

Alle nötigen Details zum neuen Format werden im Dokument 
„Grammatisches_Kurzformat.txt“
beschrieben, wo auch bereits erkannte Probleme aufgelistet werden. 
(Eines davon
enthält ein „feature request“ für „sort.py“. Kannst du helfen, Günter?)

Probiert's mal aus.

Keno