[Trennmuster] german.dic-Abgleich
Guenter Milde
milde at users.sf.net
Sa Apr 25 21:31:33 CEST 2015
On 25.04.15, Werner LEMBERG wrote:
> Liebe Trennmustler!
> Gerade habe ich einen Abgleich mit der neuesten Version von
> »german.dic« gemacht und die aktuellen Trennmuster (NR) auf diese
> Datei angewendet. Gezielt habe ich dann in der Ergebnisdatei nach
> »-X-« gesucht, was stets ein schwerer Trennfehler ist. Beispiele:
> ab-a-xi-al
> Ato-m-in-sti-tut
> Mo-to-r-hy-drau-lik
> Insgesamt sind das fast 24000 Einträge! Meiner Meinung nach sollten
> wir das in unsere Wortliste einspeisen (falls das Wort nicht gar zu
> abartig ist).
> Ich bearbeite jetzt einmal Buchstaben A. Wer will mitmachen?
> Natürlich sollten gleich »=« und Freunde eingearbeitet werden, was
> leider einen Mehraufwand darstellt.
Dafür gibt es ein experimentelles Skript, welches dies aus dem Vergleich der
Trennung mit verschiedenen "pattern" bestimmt und
gleich mit anbietet
hyphenate_neueintraege.py
Versuche kategorisierte Trennung über "hyphenation"-Algorithmus und
patgen-patterns.
Verwendet Pattern-Dateien welche über die "make" Ziele
`make pattern-refo`, `make major pattern-refo` und
`make fugen pattern-refo` im Wurzelverzeichnis der Wortliste generiert
werden können.
Erwartet eine Datei mit 1 Wort/Zeile.
Pfad/Dateiname im Abschnitt Konfiguration anpassen!
Schreibt eine Liste auf stdout. Die Liste kann nach ``neu.todo``
gespeichert und (nach Durchsicht) mit ``prepare_patch.py neu`` in die
Wortliste eingepflegt werden.
Günter
Mehr Informationen über die Mailingliste Trennmuster