[Trennmuster] Arbeitslisten
Keno Wehr
wehr at abgol.de
Mi Aug 5 21:19:28 CEST 2020
Am 15.04.20 um 18:31 schrieb Werner LEMBERG:
> In den letzten Tagen habe ich immer wieder neue einfache Komposita in
> unserer Wortliste ergänzt; Quelle dafür ist »german.dic«, das ich
> entsprechend bearbeitet habe (in erster Linie mit
> »abgleich_neueintraege.py«, wie schon in früheren E-Mails ausgeführt).
>
> Die derzeitige Eingabeliste, die ich verwende, hat etwas mehr als
> 800.000 Einträge; ich extrahiere davon jeweils 1000 zufällig gewählte
> Zeilen, schicke sie durch »hyphenate_neueintraege.py« und bearbeite
> nur Einträge aus dem zweiten Abschnitt der Ausgabe (»Unterschiedliche
> Trennung«). Da sind rund 70 Wörter zu kontrollieren, und nur wenn es
> eine Fehltrennung durch die Trennmuster gibt (also der Eintrag im
> Kommentar falsch ist), füge ich es in die Wortliste ein – mit
> Ergänzung der üblichen Wortformen sind das dann rund 100 Zeilen.
> Wollt Ihr da mitmachen? Damit wir Dopplungen vermeiden, könnte ich
> beispielsweise die 800.000 bearbeiteten Einträge in 800 kleine Dateien
> aufteilen (mit jeweils rund 70 Wörtern) und jedem von Euch 260 Dateien
> schicken. Nach einiger Zeit würde ich eine neue Version der
> Eingabedatei erzeugen und wieder einen Schwung solcher Dateien
> erzeugen, welche die alten Dateien ersetzten.
Lieber Werner,
von den 100 mir angewiesenen Dateien mit potentiell falsch getrennten
Wörtern aus dem German-dic-Korpus habe ich jetzt 10 abgearbeitet. Ich
setze die Arbeit auch gerne fort – im gleichen gemächlichen Tempo wie
bisher.
Mir ist allerdings bei der Durchsicht immer wieder der Gedanke gekommen,
dass bestimmte Dinge stärker zu automatisieren sein müssten. Die erste
Frucht dieser Überlegungen war das vor einiger Zeit auf dieser Liste
diskutierte grammatische Kurzformat, das ich für das Einpflegen der
falsch getrennten Wörter nutze, um mir die händische Ergänzung der
flektierten Adjektivformen zu ersparen.
Weiterhin ist mir aufgefallen, dass die Arbeitslisten immer relativ
viele „Fehleinträge“ enthalten (das heißt hier Einträge, die unnötig
sind, da die entsprechenden Wörter bereits richtig getrennt werden).
Diese lassen sich in drei Kategorien einteilen:
1. Es wird das Fehlen einer Nottrennungsmarkierung bemängelt. Dies liegt
aber in der Regel nur daran, dass unsere bisherigen Trennmuster
Nottrennungen wie gewöhnliche Trennungen behandeln.
Aktionsaufruf;Ak-ti.ons=auf<ruf
# Aktionsaufruf;Ak-ti-ons=auf<ruf
Anlagenkonfiguration;An<la-gen=kon<fi-gu-ra-ti.on
# Anlagenkonfiguration;An<la-gen=kon<fi-gu-ra-ti-on
Materialposition;Ma-te-ri.al=po-si-ti.on
# Materialposition;Ma-te-ri-al=po-si-ti-on
Milliardenkonzern;Mil-li.ar-den=kon<zern
# Milliardenkonzern;Mil-li-ar-den=kon<zern
2. Es wird das Fehlen einer Trennstelle vor einem Flattervokal
bemängelt. Der Grund liegt nur darin, dass die Trennmuster diesen zur
vorangegangenen Silbe ziehen.
Gartentheater;Gar-ten=the-a-ter
# Gartentheater;Gar-ten=thea-ter
Unternehmenssituationen;Un-ter<neh-mens=si-tu-a-ti.o-nen
# Unternehmenssituationen;Un-ter<neh-mens=si-tua-tio-nen
3. Es wird das Fehlen einer nichtetymologischen Alternativtrennung für
die NR bemängelt, da die Standardtrennmuster solche Trennalternativen
ignorieren, obwohl sie bereits in der Liste sind.
herabwolle;-2-;her<ab=wol-le;he-r<ab=wol-le
# herabwolle;her<ab=wol-le
heraufgekrochene;-2-;her<auf=ge<kro-che-ne;he-r<auf=ge<kro-che-ne
# heraufgekrochene;her<auf=ge<kro-che-ne
herausjagte;-2-;her<aus=jag-te;he-r<aus=jag-te
# herausjagte;her<aus=jag-te
Zielsymptomatik;-2-;Ziel=sym<pto-ma-tik;Ziel=sym<p-to-ma-tik
# Zielsymptomatik;Ziel=sym<pto-ma-tik
Durch eine Verfeinerung der zur Erzeugung der Arbeitslisten genutzten
Skripte ließen sich derartige Fehleinträge weitgehend vermeiden. Mit
Hilfe neuer „künstlicher Ziele“ bei der Trennmustererzeugung müsste das
möglich sein.
Ich möchte in dieser Hinsicht nicht selbst programmiertechnisch tätig
werden, aber die Anregung geben, vor der Erzeugung neuer Listen die
Skripte nachzujustieren, wenn es mit vertretbarem Aufwand möglich ist.
Auf lange Sicht dürfte das die Effizienz der Arbeit erhöhen.
Schöne Grüße
Keno
Mehr Informationen über die Mailingliste Trennmuster