[Trennmuster] Weiterentwicklung des Kurzformats

Stephan Hennig sh-list at posteo.net
So Mär 18 16:17:44 CET 2018


Am 16.03.2018 um 20:43 schrieb Werner LEMBERG:

>> Mehrere Einträge gleicher Schreibung machen eine Fehlererkennung
>> schwierig.  Handelt es sich bei
>> 
>> ge<schos-sen
>> Gescho-ßen# österr.
>> 
>> und der abgeleiteten Versalform Gescho-ssen um eine fehlende
>> Auszeichnung der Vorsilbe Ge- oder um eine unvereinbare Trennstelle
>> verschiedener Wortbedeutungen (geschossen, Geschossen)?
> 
> Wir werden wohl experimentieren müssen, um die Konsistenzprüfung
> sinnvoll zu gestalten.

Die zu vergleichende Normalform der Felder eines Datensatzes wird wohl
die reformierte Rechtschreibung werden.  Das sollte ohne größeren
Geschwindigkeitsverlust hinzubekommen sein.[1]  Bisher werten
Spezialtrennungen nach Dreikonsonanten- und ck-Regel zum linken Ausdruck
aus und alle Trennzeichen werden entfernt.  Nun müssen Spezialtrennungen
nach Dreikonsonantenregel zum rechten (dreibuchstabigen) Ausdruck
auswerten, ck-Trennungen wie gehabt zum linken.  Zusätzlich muss das ß
in ss gewandelt werden.  Noch was?

Fehler, die auf unterschiedliche Trennungen in unterschiedlichen Zeilen
beruhen, machen sich immer noch in der Patgen-Ein- bzw. -Ausgabe bemerkbar.

Viele Grüße,
Stephan Hennig

[1] Die Geschwindigkeit spielt deshalb eine Rolle, weil die Wandlung in
Normalform bisher parallel zur Prüfung gegen die Grammatik erfolgt.
Eine auf einen LPEG-Ausdruck passende Zeichenkette kann nämlich
Transformationen unterzogen werden (Trennzeichen entfernen).  Ist eine
Trensformation notwendig, die sich nicht in LPEG hineinstricken lässt,
muss die Prüfung aller Felder nachgeordnet erfolgen und alle Einträge
müssen zweimal angefasst werden.  Dadurch wird die Prüfung erheblich
langsamer.



Mehr Informationen über die Mailingliste Trennmuster