[Trennmuster] Entfernen von deklinierten Wörtern

Guenter Milde milde at users.sf.net
Mi Aug 19 00:16:35 CEST 2020


Lieber Werner,

On 18.08.20, Werner LEMBERG wrote:

> Gerade habe ich folgende Änderung gesehen:

>   -Binnendreher;Bin-nen=dre-her
>   -Binnendrehern;Bin-nen=dre-hern
>   -Binnendrehers;Bin-nen=dre-hers
>   +Binnendreher;Bin-nen=dre-her # techn. (bei Holländerwindmühlen)

Bei diesem exotischem Wort¹ konnte ich mich nicht zurückhalten.
Ich bitte die unabgesprochene Löschung zu entschuldigen,
es ist wieder drin und soll so nicht wieder passieren.

¹ ungefähr 384 Ergebnisse bei Google,
  kein Eintrag bei duden.de,
  keine Beleg in den Korpora von dwds.de.  

> Ich bitte vielmals, diese deklinierten Formen *nicht* zu entfernen; es
> gibt einen guten Grund, daß ich sie ergänze.

> Unsere Muster erfassen Trennstellen bis zu einer Entfernung von acht
> Buchstaben (bzw. sieben derzeit), deshalb ist es meiner Meinung nach
> notwendig, alle möglichen Wortformen nach der aufgetretenen
> Fehlerstelle zu inkludieren, falls sie innerhalb dieser acht
> Buchstaben abweichen.  Normalerweise ist die Fehlstelle genau das
> »=«-Zeichen; mit acht Buchstaben danach sind wir also auf der sicheren
> Seite.

> Meiner Erkenntnis nach ist `patgen` da recht empfindlich.  Immer
> wieder tauchen in `german.dic` Wörter auf, wo die Grundform bereits in
> unserer Liste ist, die deklinierte Form allerdings falsch getrennt
> wird.  Es nützt übrigens gar nichts, wenn beispielsweise das Wort
> »Dreher« mit allen Deklinationsformen inkludiert ist.  Es kommt
> explizit darauf an, daß »Binnendreher« mit Deklinationsformen in der
> Liste aufscheint.

Hier weichen unsere Ansichten ab: acht Buchstaben Abstand ist die große
Ausnahme und eine weitere Trennstellen zwischen der kritischen Stelle und
dem Rest senkt die Wahrscheinlichkeit, dass der letzte Endungsbuchstabe
eine Rolle spielt weiter. Auch gehört es nicht zur kritischen Gruppe der
Wörter mit expliziter Trennunterdrückung.

Mit dem Wortzerlegungsskript haben wir jetzt auch eine gute
Kontrollmöglichkeit um uns iterativ an die nötigen Einträge heranzutasten,
daher befürworte ich eine Beschränkung auf die Grundformen + ggf.
nahestehende Ableitungen oder Fälle mit Umlautung (werde aber fortan auf
Entfernungen verzichten).


> Sobald es einen Übergang zu automatisch generierten Deklinationsformen
> gibt, brauchen wir das nicht mehr, und vieles kann aufgeräumt und
> entfernt werden.  

Anstelle der automatisch generierten Deklinationsformen schlage ich ein
"kontrolliertes Auslichten" vor:

* Abgeleitete Formen von Zusammensetzungen werden in eine Zusatzliste
  verschoben, wenn die Endung "hinreichend weit" von der Morphemgrenze
  entfernt ist. Diese Liste bildet unsere Kontrollgruppe.
  
* Die patge-Muster werden neu generiert und für alle Wörter der
  Kontrollgruppe wird die patgen-Zerlegung mit dem Original verglichen.
  
* Bei Abweichungen werden die betroffenen Wörter zurück in die eigentliche
  "wortliste" verschoben.

So können wir iterativ den "hinreichend weiten" Abstand und andere
Regularitäten entdecken und die patgen-inhärente Kompression effektiv für
die Reduktion der wortliste nutzen.
 
Auf diese Weise ist die Arbeit mit den exotischen Ableitungen nicht
verloren, sie bildet den Grundstock für eine geprüfte Liste getrennter
Wörter außerhalb der Eingabemuster. 

Damit kann die Worthäufigkeit als Aufnahmekriterium entfallen ohne dass die
Liste unnötig aufgebläht wird.

> Aber bis dahin ersuche ich, meine Arbeit nicht
> unnötigerweise rückgängig zu machen.

OK.

Viele Grüße,

Günter



Mehr Informationen über die Mailingliste Trennmuster