[Trennmuster] Ligaturaufbruchmuster

Sascha Brawer sascha at brawer.ch
Mi Sep 23 07:48:39 CEST 2020


> make exzerpte/de-1996-x-morphemgrenzen

Übrigens schaut dieser Identifikator wie ein IETF-Sprachcode aus, aber weil
die Teilkette “morphemgrenzen” länger als acht Zeichen ist, werden die
Strukturregeln verletzt. Siehe RFC 5646, Abschnitt 2.2.7.

https://tools.ietf.org/html/rfc5646#section-2.2.7

— Sascha

Keno Wehr <wehr at abgol.de> schrieb am Di. 22. Sept. 2020 um 23:54:

> Am 21.09.20 um 14:10 schrieb Guenter Milde:
>
> >> gerade bin ich dabei, mich mit Stephans padrinoma-Projekt
>
> >> (https://github.com/sh2d/padrinoma) auseinanderzusetzen (dazu demnächst
>
> >> mehr).
>
> >> Die die Ligaturaufbruchmuster in seinem Repositorium veraltet sind,
> habe ich
>
> >> nach deinem Vorschlag neue erstellt:
>
> >> make major pattern-trad
>
> > Warum willst Du mit Mustern für die veraltete Rechtschreibung anfangen?
>
>
>
> Das liegt daran, dass Stephan in seiner Beispieldatei, mit der ich
>
> experimentiere, die AR verwendet hat.
>
>
>
> >> Auf den ersten Blick sah es so aus, als erhielte man damit den Aufbruch
> an
>
> >> den erwarteten Stellen, aber es gab in Stephans Testdatei zwei
>
> >> Problemwörter, bei denen eine Ligatur fälschlich aufgebrochen wurde: die
>
> >> ff-Ligatur in „chauffierender“ und die Spezialligatur tz in
> „schmatzende“.
>
> >> Eine erste Analyse lässt vermuten, dass das Makefile alle
> Wortlisteneinträge
>
> >> aussortiert, die nur einfache Trennzeichen enthalten (darunter eben auch
>
> >> „chauffierender“ und „schmatzende“), sodass patgen gar nicht wissen
> kann,
>
> >> dass diese Wörter keine „Trennstelle“ (Ligaturaufbruchstelle) enthalten
>
> >> dürfen.
>
>
>
> Ein weiteres Problem mit den Mustern, die mit dem make-Ziel „major“
>
> erstellt werden, ist die Unterdrückung als ungünstig markierter
>
> Trennstellen. So wird dann in „Genauffrischung“ (Gen=auf<.fri-schung)
>
> die ff-Ligatur nicht aufgelöst.
>
>
>
> > Scheint so. Ich habe jetzt ein neues Make-Ziel erstellt, dass eine
> passende
>
> > Eingabedatei für patgen erzeugen sollte. Nach
>
> >
>
> >    make exzerpte/de-1996-x-morphemgrenzen
>
> >
>
> > sollte exzerpte/de-1996-x-morphemgrenzen einen Startpunkt für
> Ligaturaufbruch
>
> > bieten. Ein analoges Ziel für AR kannst Du bei Bedarf leicht erstellen
>
> > (de-1996 -> de-1901).
>
>
>
> Vielen Dank!
>
> Beim ersten Versuch, daraus Muster zu erzeugen, gab es nach dem 8.
>
> Patgen-Durchlauf noch unabgedeckte Trennstellen, da „Integration“ in der
>
> Wortliste uneinheitlich ausgezeichnet war (mit/ohne Präfix „in“).
>
> Nachdem das korrigiert ist, reichen nun 7 Durchläufe.
>
>
>
> Die Variante de-1901 habe ich auch probiert, aber da erscheinen dann
>
> Einträge wie
>
> Ack/kk}er-rü{cken
>
> und
>
> Deck/kk}ungs-lü{cke
>
> Da muss wohl irgendein regulärer Ausdruck zu ausgreifend sein.
>
>
>
> Gruß
>
> Keno
>
> _______________________________________________
>
> Trennmuster mailing list
>
> Trennmuster at dante.de
>
> https://lists.dante.de/mailman/listinfo/trennmuster
>
>
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20200923/cac9291e/attachment.htm>


Mehr Informationen über die Mailingliste Trennmuster