[Trennmuster] german.dic-Abgleich

Guenter Milde milde at users.sf.net
Mi Apr 29 12:49:53 CEST 2015


Liebe Trennfreunde,

On 27.04.15, Tobias Wendorff wrote:
> Am Mo, 27.04.2015, 07:15 schrieb Werner LEMBERG:
> >
> > Hier eine neue Version der Fehleinträge der Anfangsbuchstaben b-z,
> > welche mit Günters Helferlein (und privaten Skripten von mir)
> > aufbereitet wurde.

...

> Günter, ich habe ja ein ähnliches Script damals geschrieben und habe
> zuerst nach eigenständigen Wörtern gesucht. Könntest du das in dein
> Script übernehmen? Dann würden solche Problemchen nicht auftreten:
> "Bierg-locken".

Ich habe ja zwei Skripte:

Das erste ist ähnlich zu Deinem und arbeitet mit den Wörtern und
Teilwörtern der Liste:
  
  abgleich_neueintraege.py
    Versuche Trennstellen neuer Wörter aus vorhandenen zu ermitteln
  
    Übertragen von kategorisierten Trennstellen vorhandener Wörter
    auf neu aufzunehmende, ungetrennte Wörter.
  
Das zweite verwendet die Pattern, ist dadurch schneller und manchmal auch
besser für unbekannte, neue Wörter:
  
  hyphenate_neueintraege.py
    Versuche kategorisierte Trennung über "hyphenation"-Algorithmus und
    patgen-patterns.
  
    Verwendet Pattern-Dateien welche über die "make" Ziele
    `make pattern-refo`, `make major pattern-refo` und
    `make fugen pattern-refo` im Wurzelverzeichnis der Wortliste generiert
    werden können.


Werner hatte ja den "einfachen" Trennalgorithmus über die nicht erfaßten
Wörter laufen lassen und dann nach eindeutigen Problemfällen gesucht.

Ich schlug vor, für die Trennung den "kategorisierenden" Algorithmus
(Kombination der Ergebnisse von 4 verschiedenen Pattern) zu verwenden um als
Basis für die Einträge wenigstens gleich die spezifischen Trenner zu haben.

Allerdings ist für *Problemfälle* die erste Herangehensweise sicher besser
geeignet - denn das sind ja die Fälle, wo unsere bisherigen Pattern versagt
haben! Ich werd das weiter verfolgen.


> Irgendwie vermute ich immer noch, dass zu viele Einträge in der
> Wortliste die Qualität der Trennmuster herunterreißen.

Zu viele ist nicht so sehr das Problem, eher die Ungleichverteilung der
Stichprobe und die Struktur der deutschen Sprache.

Ansonsten frage ich mich, ob die Unterdrückung "irreführender" Trennungen
die Generalisierung in günstiger oder ungünstiger Richtung verzerrt.


Viele Grüße

Günter



Mehr Informationen über die Mailingliste Trennmuster