[Trennmuster] 1315242 good, 3 bad, 2 missed
Stephan Hennig
mailing_list at arcor.de
Mo Jul 7 22:23:53 CEST 2014
Am 07.07.2014 14:20, schrieb Guenter Milde:
> On 7.07.14, Georg Pfeiffer wrote:
>
> Ob mit der Wortliste was nicht in Ordnung ist kann man daraus nicht
> schließen, der Gründe sind viele.
>
>> Ich habe nämlich vorhab die pre-1901 und meine lokale
>> namen-Datei der wortliste hinzugefügt (cat … >> wortliste).
>
> Dann ist das Problem wahrscheinlich diese Zusammenführung von lokalen
> ("exotischen") Einträgen und der "wortliste".
Momentan gibt es noch ein Problem mit falschen Doppel-s-Schreibungen aus
d50006. Allerdings sollten jene gerade nicht die traditionelle
Rechtschreibung betreffen, sondern die beiden anderen ...
> Welche Einträge "bad" oder "missed" sind, kannst Du in pattmp.8 sehen
Und jedes Mal wenn man sich die Dateien ansieht, findet man dort die
üblichen Verdächtigen (Lausanne etc.) neben den auf das Problem
hinweisenden Wörtern. Daher habe ich ein Skript, welches die Differenz
dieser Dateien zweier Patgenläufe verschiedener Commit bildet. Das
wollte ich schon länger mal als Ziel 'podiff' (Patgen Output) ins
Makefile stellen (als Gegenstück zu 'pidiff'). Da ich nicht weiß, ob
das ohne weiteres lauffähig ist, habe ich das Skript aber nicht
angehängt. Wer etwas forschen möchte, kann mal in einer anderen
Arbeitskopie neue Muster mit Stand 'dehyph-exptl-v0.40' erzeugen (oder
einem beliebigen anderen Commit, der nachweislich fehlerfrei durchlief)
und selbst 'diff' über die Dateien pattmp.* laufen lassen.
(Ich glaube, um Rauschen aus Patgens Ausgabe zu entfernen, ist mein
Skript ist noch etwas komplizierter. Zuerst läuft diff über pattmp.<n>
und pattmp.<n-1> eines Commits. Dasselbe nochmal für den anderen
Commit. Und dann wird diff über die beiden so gebildeten Patches laufen
gelassen. In dem Ergebnis hat man dann nur noch Verschiebungen drin und
keine dauerhaften "Problemfälle". Aber ich müsste mir das selbst
nochmal genauer ansehen ... Immerhin hatte ich damit vor der letzten
Veröffentlichung genau ein Wort mit einer fehlenden
Trennstellenauszeichnung identifiziert.)
> Patgen ist mit der deutschen "wortliste" ja schon bis an die Grenzen
> ausgereizt.
Es gäbe noch Level 9, aber das hülfe ja nicht im Falle 'bad', sondern
nur im Falle 'missed', der sowieso weniger kritisch ist.
Viele Grüße,
Stephan Hennig
Mehr Informationen über die Mailingliste Trennmuster