[Trennmuster] Formale Qualitätssicherung?

Guenter Milde milde at users.sf.net
Fr Sep 18 01:28:29 CEST 2020


On 18.09.20, Keno Wehr wrote:
> Am 16.09.20 um 17:19 schrieb Guenter Milde:
> > On 14.09.20, Keno Wehr wrote:
> > > Am 12.09.20 um 00:16 schrieb Selke, Gisbert W.:
> > > Mit „umformatierung.py“ (Aufruf: ./skripte/umformatierung.py -k <
> > > eingabedatei > ausgabedatei) kann man eine Wortliste ins Kurzformat
> > > umwandeln (und zurück). Auch dies ist zur Fehlerkontrolle nützlich, da das
> > > Kurzformat in der Regel mit einem einzigen Feld pro Zeile auskommt. Wo es
> > > mehrere Felder gibt (also ein Semikolon in der Zeile auftaucht), sollte man
> > > sich genau ansehen, ob in der Ausgangsdatei wirklich alles stimmt.
> > Beispiele, wo trotz Semikolon alles stimmt sind:
> > 
> > * Fremdword/Name mit Schluss-ss statt ß (A·sess-ment=cen-ter, Hess)
> > * Rechtschreibänderungen (Stängel, aufwänden/aufwändig, an<ge<rauht)
> > * Trennänderungen, wo der Algorithmus versagt
> >    (ab-sze-die-ren, Hof=fens-.ter;Hof=fen-.ster)
> > * Explizite Ungünstigkeitsmarker in nur einer Sprachvariante
> >    (Bass=in<.stru-ment;Baß=in<stru-ment)

> Und dann gibt es da noch den folgenden Eintrag:
> Ge-r<i.a-trie;Ger<ia-trie

> Hier ist eigentlich alles regelhaft ableitbar, trotzdem erscheint eine
> eigene AR-Form. Es liegt wohl an dem ungewöhnlichen
> Randalternativtrennstellenschwankungsfall. Mich stört es nicht besonders,
> aber vielleicht kann man da noch was am Skript machen.

Aufwand/Nutzen zu hoch.

> Außerdem taucht in der Kurzform der Arzneimittelliste
> A·b·c<i·xi<mab;A·b·c<i·xi<mab
> mit zwei identischen Feldern auf. Wieso nur?

Einfach andersrum probieren:

  skripte/umformatierung.py -
  A·b·c<i·xi<mab
  Ge-r<i.a-trie
  Abciximab;-2-;A·bc<i·xi<mab;A·b·c<i·xi<mab
  Geriatrie;-2-;Ger<i·a-trie;Ge-r<i.a-trie

Eine Vorsilbe a·b·c- ist wirklich zu exotisch und wird wohl auch nicht in
Liedern auftauchen.

Günter









Mehr Informationen über die Mailingliste Trennmuster