[Trennmuster] german.dic-Abgleich

Guenter Milde milde at users.sf.net
Sa Apr 25 21:31:33 CEST 2015


On 25.04.15, Werner LEMBERG wrote:

> Liebe Trennmustler!


> Gerade habe ich einen Abgleich mit der neuesten Version von
> »german.dic« gemacht und die aktuellen Trennmuster (NR) auf diese
> Datei angewendet.  Gezielt habe ich dann in der Ergebnisdatei nach
> »-X-« gesucht, was stets ein schwerer Trennfehler ist.  Beispiele:

>   ab-a-xi-al
>   Ato-m-in-sti-tut
>   Mo-to-r-hy-drau-lik

> Insgesamt sind das fast 24000 Einträge!  Meiner Meinung nach sollten
> wir das in unsere Wortliste einspeisen (falls das Wort nicht gar zu
> abartig ist).

> Ich bearbeite jetzt einmal Buchstaben A.  Wer will mitmachen?
> Natürlich sollten gleich »=« und Freunde eingearbeitet werden, was
> leider einen Mehraufwand darstellt.

Dafür gibt es ein experimentelles Skript, welches dies aus dem Vergleich der
Trennung mit verschiedenen "pattern" bestimmt und 
gleich mit anbietet

hyphenate_neueintraege.py
  Versuche kategorisierte Trennung über "hyphenation"-Algorithmus und
  patgen-patterns.

  Verwendet Pattern-Dateien welche über die "make" Ziele
  `make pattern-refo`, `make major pattern-refo` und
  `make fugen pattern-refo` im Wurzelverzeichnis der Wortliste generiert
  werden können.

  Erwartet eine Datei mit 1 Wort/Zeile.
  Pfad/Dateiname im Abschnitt Konfiguration anpassen!

  Schreibt eine Liste auf stdout. Die Liste kann nach ``neu.todo``
  gespeichert und (nach Durchsicht) mit ``prepare_patch.py neu`` in die
  Wortliste eingepflegt werden.


Günter



Mehr Informationen über die Mailingliste Trennmuster