[Trennmuster] Ligaturaufbruchmuster

Keno Wehr wehr at abgol.de
Di Sep 22 23:54:36 CEST 2020


Am 21.09.20 um 14:10 schrieb Guenter Milde:
>> gerade bin ich dabei, mich mit Stephans padrinoma-Projekt
>> (https://github.com/sh2d/padrinoma) auseinanderzusetzen (dazu demnächst
>> mehr).
>> Die die Ligaturaufbruchmuster in seinem Repositorium veraltet sind, habe ich
>> nach deinem Vorschlag neue erstellt:
>> make major pattern-trad
> Warum willst Du mit Mustern für die veraltete Rechtschreibung anfangen?

Das liegt daran, dass Stephan in seiner Beispieldatei, mit der ich 
experimentiere, die AR verwendet hat.

>> Auf den ersten Blick sah es so aus, als erhielte man damit den Aufbruch an
>> den erwarteten Stellen, aber es gab in Stephans Testdatei zwei
>> Problemwörter, bei denen eine Ligatur fälschlich aufgebrochen wurde: die
>> ff-Ligatur in „chauffierender“ und die Spezialligatur tz in „schmatzende“.
>> Eine erste Analyse lässt vermuten, dass das Makefile alle Wortlisteneinträge
>> aussortiert, die nur einfache Trennzeichen enthalten (darunter eben auch
>> „chauffierender“ und „schmatzende“), sodass patgen gar nicht wissen kann,
>> dass diese Wörter keine „Trennstelle“ (Ligaturaufbruchstelle) enthalten
>> dürfen.

Ein weiteres Problem mit den Mustern, die mit dem make-Ziel „major“ 
erstellt werden, ist die Unterdrückung als ungünstig markierter 
Trennstellen. So wird dann in „Genauffrischung“ (Gen=auf<.fri-schung) 
die ff-Ligatur nicht aufgelöst.

> Scheint so. Ich habe jetzt ein neues Make-Ziel erstellt, dass eine passende
> Eingabedatei für patgen erzeugen sollte. Nach
>
>    make exzerpte/de-1996-x-morphemgrenzen
>
> sollte exzerpte/de-1996-x-morphemgrenzen einen Startpunkt für Ligaturaufbruch
> bieten. Ein analoges Ziel für AR kannst Du bei Bedarf leicht erstellen
> (de-1996 -> de-1901).

Vielen Dank!
Beim ersten Versuch, daraus Muster zu erzeugen, gab es nach dem 8. 
Patgen-Durchlauf noch unabgedeckte Trennstellen, da „Integration“ in der 
Wortliste uneinheitlich ausgezeichnet war (mit/ohne Präfix „in“).
Nachdem das korrigiert ist, reichen nun 7 Durchläufe.

Die Variante de-1901 habe ich auch probiert, aber da erscheinen dann 
Einträge wie
Ack/kk}er-rü{cken
und
Deck/kk}ungs-lü{cke
Da muss wohl irgendein regulärer Ausdruck zu ausgreifend sein.

Gruß
Keno



Mehr Informationen über die Mailingliste Trennmuster