[Trennmuster] Formale Qualitätssicherung?
Guenter Milde
milde at users.sf.net
Fr Sep 18 01:28:29 CEST 2020
On 18.09.20, Keno Wehr wrote:
> Am 16.09.20 um 17:19 schrieb Guenter Milde:
> > On 14.09.20, Keno Wehr wrote:
> > > Am 12.09.20 um 00:16 schrieb Selke, Gisbert W.:
> > > Mit „umformatierung.py“ (Aufruf: ./skripte/umformatierung.py -k <
> > > eingabedatei > ausgabedatei) kann man eine Wortliste ins Kurzformat
> > > umwandeln (und zurück). Auch dies ist zur Fehlerkontrolle nützlich, da das
> > > Kurzformat in der Regel mit einem einzigen Feld pro Zeile auskommt. Wo es
> > > mehrere Felder gibt (also ein Semikolon in der Zeile auftaucht), sollte man
> > > sich genau ansehen, ob in der Ausgangsdatei wirklich alles stimmt.
> > Beispiele, wo trotz Semikolon alles stimmt sind:
> >
> > * Fremdword/Name mit Schluss-ss statt ß (A·sess-ment=cen-ter, Hess)
> > * Rechtschreibänderungen (Stängel, aufwänden/aufwändig, an<ge<rauht)
> > * Trennänderungen, wo der Algorithmus versagt
> > (ab-sze-die-ren, Hof=fens-.ter;Hof=fen-.ster)
> > * Explizite Ungünstigkeitsmarker in nur einer Sprachvariante
> > (Bass=in<.stru-ment;Baß=in<stru-ment)
> Und dann gibt es da noch den folgenden Eintrag:
> Ge-r<i.a-trie;Ger<ia-trie
> Hier ist eigentlich alles regelhaft ableitbar, trotzdem erscheint eine
> eigene AR-Form. Es liegt wohl an dem ungewöhnlichen
> Randalternativtrennstellenschwankungsfall. Mich stört es nicht besonders,
> aber vielleicht kann man da noch was am Skript machen.
Aufwand/Nutzen zu hoch.
> Außerdem taucht in der Kurzform der Arzneimittelliste
> A·b·c<i·xi<mab;A·b·c<i·xi<mab
> mit zwei identischen Feldern auf. Wieso nur?
Einfach andersrum probieren:
skripte/umformatierung.py -
A·b·c<i·xi<mab
Ge-r<i.a-trie
Abciximab;-2-;A·bc<i·xi<mab;A·b·c<i·xi<mab
Geriatrie;-2-;Ger<i·a-trie;Ge-r<i.a-trie
Eine Vorsilbe a·b·c- ist wirklich zu exotisch und wird wohl auch nicht in
Liedern auftauchen.
Günter
Mehr Informationen über die Mailingliste Trennmuster