[Trennmuster] "hyph_start, hyph_finish" im Loop

Werner LEMBERG wl at gnu.org
So Dez 30 16:47:57 CET 2012


> Ich lande wieder in der Schleife, auch manuell.  Oder läuft das
> (selbst bei einem Eintrag) mehrere Stunden?

Was heißt »bei einem Eintrag«?

Gerade getestet: Bei mir funktioniert alles tadellos.  Ein Aufruf von

  make pattern-trad

beispielsweise erzeugt folgende Ausgabe (leicht verhübscht):

  mkdir -p dehypht-x
  cat /home/wl/git/wortliste/wortliste \
  | perl /home/wl/git/wortliste/skripte/extract-tex-trad.pl  \
  | cat \
  | LC_COLLATE=de_DE.ISO8859-1 \
    LC_CTYPE=de_DE.ISO8859-1 sort -d \
  | LC_COLLATE=de_DE.ISO8859-1 \
    LC_CTYPE=de_DE.ISO8859-1 uniq -i \
  > dehypht-x/words.hyphenated.trad

  cd dehypht-x; \
    sh /home/wl/git/wortliste/skripte/make-full-pattern.sh \
       words.hyphenated.trad \
       /home/wl/git/wortliste/daten/german.tr

  This is PATGEN, Version 2.4 (TeX Live 2012)
  left_hyphen_min = 2, right_hyphen_min = 2, 50 letters
  0 patterns read in
  pattern trie has 256 nodes, trie_max = 256, 0 outputs
  hyph_start, hyph_finish:
  pat_start, pat_finish:
  good weight, bad weight, threshold:
  processing dictionary with pat_len = 2, pat_dot = 1
 
  0 good, 0 bad, 1270513 missed
  0.00 %, 0.00 %, 100.00 %
  830 patterns, 1086 nodes in count trie, triec_max = 2866
  463 good and 93 bad patterns added (more to come)
 
gefolgt von vielen Variationen von

  finding 5547 good and 1882 bad hyphens, efficiency = 2.19
  pattern trie has 21403 nodes, trie_max = 55974, 590 outputs
  processing dictionary with pat_len = 4, pat_dot = 1
  4K 8K 12K 16K 20K 24K
  1258195 good, 13137 bad, 12318 missed
  99.03 %, 1.03 %, 0.97 %
  5589 patterns, 7208 nodes in count trie, triec_max = 26859
  552 good and 3487 bad patterns added (more to come)

was auf meinem alten Laptop rund 10 Minuten dauert.

Und jetzt explizit ein manueller Aufruf von patgen.  Die Zahlenwerte
in spitzen Klammern mußt Du interaktiv eintippen (ohne Klammern), die
Datei »words.hyphenated.trad« hat obiger Makefile-Aufruf erzeugt, und
»german.tr« befindet sich im git-Verzeichnis.

  > patgen words.hyphenated.trad /dev/null pattern.1 german.tr

  This is PATGEN, Version 2.4 (TeX Live 2012)
  left_hyphen_min = 2, right_hyphen_min = 2, 50 letters
  0 patterns read in
  pattern trie has 256 nodes, trie_max = 256, 0 outputs

  hyph_start, hyph_finish: <1 1>
  pat_start, pat_finish: <2 5>
  good weight, bad weight, threshold: <1 1 1>

  processing dictionary with pat_len = 2, pat_dot = 1
  0 good, 0 bad, 1270513 missed
  0.00 %, 0.00 %, 100.00 %
  830 patterns, 1086 nodes in count trie, triec_max = 2866
  463 good and 93 bad patterns added (more to come)
  finding 935229 good and 292525 bad hyphens, efficiency = 3.19
  pattern trie has 812 nodes, trie_max = 1560, 2 outputs
  ...


    Werner



Mehr Informationen über die Mailingliste Trennmuster