[Trennmuster] Formale Qualitätssicherung?

Keno Wehr wehr at abgol.de
Fr Sep 18 00:39:34 CEST 2020


Am 16.09.20 um 17:19 schrieb Guenter Milde:
> On 14.09.20, Keno Wehr wrote:
>> Am 12.09.20 um 00:16 schrieb Selke, Gisbert W.:
>> Mit „umformatierung.py“ (Aufruf: ./skripte/umformatierung.py -k <
>> eingabedatei > ausgabedatei) kann man eine Wortliste ins Kurzformat
>> umwandeln (und zurück). Auch dies ist zur Fehlerkontrolle nützlich, da das
>> Kurzformat in der Regel mit einem einzigen Feld pro Zeile auskommt. Wo es
>> mehrere Felder gibt (also ein Semikolon in der Zeile auftaucht), sollte man
>> sich genau ansehen, ob in der Ausgangsdatei wirklich alles stimmt.
> Beispiele, wo trotz Semikolon alles stimmt sind:
>
> * Fremdword/Name mit Schluss-ss statt ß (A·sess-ment=cen-ter, Hess)
> * Rechtschreibänderungen (Stängel, aufwänden/aufwändig, an<ge<rauht)
> * Trennänderungen, wo der Algorithmus versagt
>    (ab-sze-die-ren, Hof=fens-.ter;Hof=fen-.ster)
> * Explizite Ungünstigkeitsmarker in nur einer Sprachvariante
>    (Bass=in<.stru-ment;Baß=in<stru-ment)

Und dann gibt es da noch den folgenden Eintrag:
Ge-r<i.a-trie;Ger<ia-trie

Hier ist eigentlich alles regelhaft ableitbar, trotzdem erscheint eine 
eigene AR-Form. Es liegt wohl an dem ungewöhnlichen 
Randalternativtrennstellenschwankungsfall. Mich stört es nicht 
besonders, aber vielleicht kann man da noch was am Skript machen.

Außerdem taucht in der Kurzform der Arzneimittelliste
A·b·c<i·xi<mab;A·b·c<i·xi<mab
mit zwei identischen Feldern auf. Wieso nur?

Gruß
Keno



Mehr Informationen über die Mailingliste Trennmuster