[Trennmuster] Fehlersuche
Guenter Milde
milde at users.sf.net
Do Mai 24 11:57:40 CEST 2012
On 12.05.12, Werner LEMBERG wrote:
> Ich habe das Makefile aktualisiert; im besonderen funktioniert »make
> major XXX« (mit XXX=pattern-refo|pattern-trad|pattern-swiss) wieder.
> Besonders in der derzeitigen Umbauphase ist das »major«-Target sehr
> nützlich, da nämlich systematische Fehler gut erkenntlich sind.
Danke für die Tests. Es ist gut zu wissen, daß
> Wenn man beispielsweise
> make major pattern-refo
Bei mir ergibt dieser Aufruf (und auch `make major pattern-trad`) zur
Zeit eine Endlosschleife:
pattern.2.log sagt:
This is PATGEN, Version 2.4 (TeX Live 2012/dev/Debian)
left_hyphen_min = 2, right_hyphen_min = 2, 50 letters
5962 patterns read in
pattern trie has 9102 nodes, trie_max = 16524, 11 outputs
hyph_start, hyph_finish: Specify 1<=hyph_start,hyph_finish<=9 !
hyph_start, hyph_finish: Specify 1<=hyph_start,hyph_finish<=9 !
hyph_start, hyph_finish: Specify 1<=hyph_start,hyph_finish<=9 !
und so weiter (ich habe nach 2821186 Zeilen abgebrochen).
Was mache ich falsch? Muß vor dem Aufruf noch etwas konvertiert/aktualisiert
werden?
Im Makefile lese ich:
MAJOR = -major
# A single `-' gets removed; all other combinations of `-', `=', and `|'
# are converted to a hyphen.
Was ist mit den unterdrückten Trennstellen '-.', '|.' und '=.'? Sind die
schon vorher ausgefiltert?
> aufruft und nach ».« sucht, findet man u.a. folgendes in der Datei
> »pattmp.2«
Wenn ich das richtig deute, sind "Fehler" in pattmp.[1-7] hinweise auf
Inkonsistenzen, die auf nicht vollständige Kategorisierung hinweisen
oder durchaus begründet sein können:
> ab*bau-er.scheinungen # Fehler
> abend*land.schaft # »-schaft« noch nicht behandelt
"Schaft" ist sowohl ein Grundwort (Speer=schaft, ...) als auch ein Suffix
(Land-schaft, Knecht-schaft, ...). Ist das mit dem Kommentar gemeint oder
ist eine Markierung des Suffixes in der wortliste erwartet/erwünscht?
> ab*fall*ent.sorgers # Fehler
> ab*fall*ver.meidungs*projekte # Fehler
> ...
> ab.guss*form # Fehler in schweizer Form
> ...
Die Schweizer und GROSS- Varianten sind noch nicht explizit kategorisiert.
Da sind Inkonsistenzen keine Überraschung.
> Laut Log-Datei gibt's derzeit 1608 solcher Einträge; da einige davon
> meiner Meinung nach auf Probleme in Günters Python-Skripten hindeuten
> und daher vielleicht maschinell korrigiert werden könnten, habe ich
> derzeit nichts verbessert.
Die inkonsistente Auszeichnung von Präfixen ist zumeist eine Folge der
iterativen Vorgehensweise mit manueller Kontrolle aller Änderungen: In
Wörtern mit Mehrfachpräfixen (wie Voraussetzung) erkennt das Skript nur
den ersten nichtmarkierten Präfix. Wenn also zuerst "aus" markiert wird,
und dann "vor" steht in der Wortliste "Vor|aus-set-zung" neben
"Aus|setzen".
Da die Auszeichnung ein langwieriger Prozess ist, werde ich sie nicht in
absehbarer Zeit vollständig abschließen können. Vor der Veröffentlichung
einer neuen dehyph Version oder der Optimierung von patgen lassen sich
erkannte Inkonsistenzen aber minimieren. Wenn dies gewünscht ist, bitte
bescheidgeben, so daß ich die Schwerpunktsetzung der Arbeit mit den
Skripts danach richten kann.
viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster