[Trennmuster] Arbeitslisten

Keno Wehr wehr at abgol.de
Mi Aug 5 21:19:28 CEST 2020


Am 15.04.20 um 18:31 schrieb Werner LEMBERG:
> In den letzten Tagen habe ich immer wieder neue einfache Komposita in
> unserer Wortliste ergänzt; Quelle dafür ist »german.dic«, das ich
> entsprechend bearbeitet habe (in erster Linie mit
> »abgleich_neueintraege.py«, wie schon in früheren E-Mails ausgeführt).
>
> Die derzeitige Eingabeliste, die ich verwende, hat etwas mehr als
> 800.000 Einträge; ich extrahiere davon jeweils 1000 zufällig gewählte
> Zeilen, schicke sie durch »hyphenate_neueintraege.py« und bearbeite
> nur Einträge aus dem zweiten Abschnitt der Ausgabe (»Unterschiedliche
> Trennung«). Da sind rund 70 Wörter zu kontrollieren, und nur wenn es
> eine Fehltrennung durch die Trennmuster gibt (also der Eintrag im
> Kommentar falsch ist), füge ich es in die Wortliste ein – mit
> Ergänzung der üblichen Wortformen sind das dann rund 100 Zeilen.

> Wollt Ihr da mitmachen? Damit wir Dopplungen vermeiden, könnte ich
> beispielsweise die 800.000 bearbeiteten Einträge in 800 kleine Dateien
> aufteilen (mit jeweils rund 70 Wörtern) und jedem von Euch 260 Dateien
> schicken. Nach einiger Zeit würde ich eine neue Version der
> Eingabedatei erzeugen und wieder einen Schwung solcher Dateien
> erzeugen, welche die alten Dateien ersetzten.

Lieber Werner,
von den 100 mir angewiesenen Dateien mit potentiell falsch getrennten 
Wörtern aus dem German-dic-Korpus habe ich jetzt 10 abgearbeitet. Ich 
setze die Arbeit auch gerne fort – im gleichen gemächlichen Tempo wie 
bisher.

Mir ist allerdings bei der Durchsicht immer wieder der Gedanke gekommen, 
dass bestimmte Dinge stärker zu automatisieren sein müssten. Die erste 
Frucht dieser Überlegungen war das vor einiger Zeit auf dieser Liste 
diskutierte grammatische Kurzformat, das ich für das Einpflegen der 
falsch getrennten Wörter nutze, um mir die händische Ergänzung der 
flektierten Adjektivformen zu ersparen.

Weiterhin ist mir aufgefallen, dass die Arbeitslisten immer relativ 
viele „Fehleinträge“ enthalten (das heißt hier Einträge, die unnötig 
sind, da die entsprechenden Wörter bereits richtig getrennt werden). 
Diese lassen sich in drei Kategorien einteilen:

1. Es wird das Fehlen einer Nottrennungsmarkierung bemängelt. Dies liegt 
aber in der Regel nur daran, dass unsere bisherigen Trennmuster 
Nottrennungen wie gewöhnliche Trennungen behandeln.

   Aktionsaufruf;Ak-ti.ons=auf<ruf
# Aktionsaufruf;Ak-ti-ons=auf<ruf

   Anlagenkonfiguration;An<la-gen=kon<fi-gu-ra-ti.on
# Anlagenkonfiguration;An<la-gen=kon<fi-gu-ra-ti-on

   Materialposition;Ma-te-ri.al=po-si-ti.on
# Materialposition;Ma-te-ri-al=po-si-ti-on

   Milliardenkonzern;Mil-li.ar-den=kon<zern
# Milliardenkonzern;Mil-li-ar-den=kon<zern

2. Es wird das Fehlen einer Trennstelle vor einem Flattervokal 
bemängelt. Der Grund liegt nur darin, dass die Trennmuster diesen zur 
vorangegangenen Silbe ziehen.

   Gartentheater;Gar-ten=the-a-ter
# Gartentheater;Gar-ten=thea-ter

Unternehmenssituationen;Un-ter<neh-mens=si-tu-a-ti.o-nen
# Unternehmenssituationen;Un-ter<neh-mens=si-tua-tio-nen

3. Es wird das Fehlen einer nichtetymologischen Alternativtrennung für 
die NR bemängelt, da die Standardtrennmuster solche Trennalternativen 
ignorieren, obwohl sie bereits in der Liste sind.

   herabwolle;-2-;her<ab=wol-le;he-r<ab=wol-le
# herabwolle;her<ab=wol-le

heraufgekrochene;-2-;her<auf=ge<kro-che-ne;he-r<auf=ge<kro-che-ne
# heraufgekrochene;her<auf=ge<kro-che-ne

   herausjagte;-2-;her<aus=jag-te;he-r<aus=jag-te
# herausjagte;her<aus=jag-te

Zielsymptomatik;-2-;Ziel=sym<pto-ma-tik;Ziel=sym<p-to-ma-tik
# Zielsymptomatik;Ziel=sym<pto-ma-tik


Durch eine Verfeinerung der zur Erzeugung der Arbeitslisten genutzten 
Skripte ließen sich derartige Fehleinträge weitgehend vermeiden. Mit 
Hilfe neuer „künstlicher Ziele“ bei der Trennmustererzeugung müsste das 
möglich sein.
Ich möchte in dieser Hinsicht nicht selbst programmiertechnisch tätig 
werden, aber die Anregung geben, vor der Erzeugung neuer Listen die 
Skripte nachzujustieren, wenn es mit vertretbarem Aufwand möglich ist. 
Auf lange Sicht dürfte das die Effizienz der Arbeit erhöhen.

Schöne Grüße
Keno



Mehr Informationen über die Mailingliste Trennmuster