[Trennmuster] german.dic-Abgleich

Stephan Hennig sh-list at posteo.net
Mo Apr 27 19:04:19 CEST 2015


Am 27.04.2015 um 17:35 schrieb Tobias Wendorff:

> Dann würden solche Problemchen nicht auftreten:
> "Bierg-locken".
> 
> Ich frage mich auch, welches Pattern für "Bierg" verantwortlich ist.

Sehen wir doch mal nach[1]:

> $ echo bierglocken |texlua patternize.lua -v -T
> pattern file: c:/texlive/2014/texmf-dist/tex/generic/hyph-utf8/patterns/txt/hyph-de-1901.pat.txt (15624 patterns read)
> spot mins, special characters: 2 2 '-=.'
> 
>  . b i e r g l o c k e n .
>   1b i
>         4r1g
>             1l o
>               2o c
>                 4c4k
>                    k2e n .
>  .0b0i0e4r1g1l2o4c4k2e0n0.
> bier-g-locken
> 
> $ echo bierglocken |texlua patternize.lua -v -R
> pattern file: c:/texlive/2014/texmf-dist/tex/generic/hyph-utf8/patterns/txt/hyph-de-1996.pat.txt (15207 patterns read)
> spot mins, special characters: 2 2 '-=.'
> 
>  . b i e r g l o c k e n .
>   1b i
>         4r1g
>             1l o
>               2o c
>                  c4k
>                o1c k
>                 1c k e
>                o3c k e
>                    k2e n .
>  .0b0i0e4r1g1l2o3c4k2e0n0.
> bier-g-lo-cken

Mit den Mustern aus dehyph-exptl v0.40 ist es also in beiden
Rechtschreibungen das Muster "1lo".


> Es gibt in der kompletten Wortliste kein Morphem (oder sonstwas) mit
> "bierg", dafür aber über 100 Einträge mit "Bier=" und über 40 Einträge
> mit "Glocken".

Offensichtlich gibt es zu wenige Zusammensetzungen mit "glocken" als
zweitem Bestandteil.  Am Wortanfang wird G-locken wegen \lefthyphenmin=2
nie getrennt.  Daher ist ein "Verbotsmuster" dafür nicht nötig.

Das ist eine Eigenschaft unserer Muster, welche bei zusammengesetzten
Wörtern systematische Fehler verursacht.  Möglicherweise ließen sich
solche Trennungen der Form -x- vermeiden, indem in patgen \lefthypenmin
und \righthyphenmin auf 1 heruntergesetzt werden und patgen dann mehr
Verbotsmuster erzeugen muss.


> Irgendwie vermute ich immer noch, dass zu viele Einträge in der
> Wortliste die Qualität der Trennmuster herunterreißen.

Für eine geeignete Definition von "Qualität der Trennmuster" sicher, zum
Beispiel als dem Merkmal "Größe der Musterdatei".  Ohne eine solche
Definition ist eine Diskussion darüber aber müßig.

Wie man oben sieht, sind in diesem Fall zu viele Muster keineswegs das
Problem.

Viele Grüße,
Stephan Hennig

[1] <URL:https://github.com/sh2d/padrinoma>, insb. examples/README




Mehr Informationen über die Mailingliste Trennmuster