[Trennmuster] Formale Qualitätssicherung?
Keno Wehr
wehr at abgol.de
Fr Sep 18 00:39:34 CEST 2020
Am 16.09.20 um 17:19 schrieb Guenter Milde:
> On 14.09.20, Keno Wehr wrote:
>> Am 12.09.20 um 00:16 schrieb Selke, Gisbert W.:
>> Mit „umformatierung.py“ (Aufruf: ./skripte/umformatierung.py -k <
>> eingabedatei > ausgabedatei) kann man eine Wortliste ins Kurzformat
>> umwandeln (und zurück). Auch dies ist zur Fehlerkontrolle nützlich, da das
>> Kurzformat in der Regel mit einem einzigen Feld pro Zeile auskommt. Wo es
>> mehrere Felder gibt (also ein Semikolon in der Zeile auftaucht), sollte man
>> sich genau ansehen, ob in der Ausgangsdatei wirklich alles stimmt.
> Beispiele, wo trotz Semikolon alles stimmt sind:
>
> * Fremdword/Name mit Schluss-ss statt ß (A·sess-ment=cen-ter, Hess)
> * Rechtschreibänderungen (Stängel, aufwänden/aufwändig, an<ge<rauht)
> * Trennänderungen, wo der Algorithmus versagt
> (ab-sze-die-ren, Hof=fens-.ter;Hof=fen-.ster)
> * Explizite Ungünstigkeitsmarker in nur einer Sprachvariante
> (Bass=in<.stru-ment;Baß=in<stru-ment)
Und dann gibt es da noch den folgenden Eintrag:
Ge-r<i.a-trie;Ger<ia-trie
Hier ist eigentlich alles regelhaft ableitbar, trotzdem erscheint eine
eigene AR-Form. Es liegt wohl an dem ungewöhnlichen
Randalternativtrennstellenschwankungsfall. Mich stört es nicht
besonders, aber vielleicht kann man da noch was am Skript machen.
Außerdem taucht in der Kurzform der Arzneimittelliste
A·b·c<i·xi<mab;A·b·c<i·xi<mab
mit zwei identischen Feldern auf. Wieso nur?
Gruß
Keno
Mehr Informationen über die Mailingliste Trennmuster