<div dir="auto">> make exzerpte/de-1996-x-morphemgrenzen<br></div><div dir="auto"><br></div><div dir="auto">Übrigens schaut dieser Identifikator wie ein IETF-Sprachcode aus, aber weil die Teilkette “morphemgrenzen” länger als acht Zeichen ist, werden die Strukturregeln verletzt. Siehe RFC 5646, Abschnitt 2.2.7.</div><div dir="auto"><br></div><div dir="auto"><div><a href="https://tools.ietf.org/html/rfc5646#section-2.2.7">https://tools.ietf.org/html/rfc5646#section-2.2.7</a></div></div><div dir="auto"><br></div><div dir="auto">— Sascha</div><div dir="auto"><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">Keno Wehr <<a href="mailto:wehr@abgol.de">wehr@abgol.de</a>> schrieb am Di. 22. Sept. 2020 um 23:54:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;padding-left:1ex;border-left-color:rgb(204,204,204)">Am 21.09.20 um 14:10 schrieb Guenter Milde:<br><br>>> gerade bin ich dabei, mich mit Stephans padrinoma-Projekt<br><br>>> (<a href="https://github.com/sh2d/padrinoma" rel="noreferrer" target="_blank">https://github.com/sh2d/padrinoma</a>) auseinanderzusetzen (dazu demnächst<br><br>>> mehr).<br><br>>> Die die Ligaturaufbruchmuster in seinem Repositorium veraltet sind, habe ich<br><br>>> nach deinem Vorschlag neue erstellt:<br><br>>> make major pattern-trad<br><br>> Warum willst Du mit Mustern für die veraltete Rechtschreibung anfangen?<br><br><br><br>Das liegt daran, dass Stephan in seiner Beispieldatei, mit der ich <br><br>experimentiere, die AR verwendet hat.<br><br><br><br>>> Auf den ersten Blick sah es so aus, als erhielte man damit den Aufbruch an<br><br>>> den erwarteten Stellen, aber es gab in Stephans Testdatei zwei<br><br>>> Problemwörter, bei denen eine Ligatur fälschlich aufgebrochen wurde: die<br><br>>> ff-Ligatur in „chauffierender“ und die Spezialligatur tz in „schmatzende“.<br><br>>> Eine erste Analyse lässt vermuten, dass das Makefile alle Wortlisteneinträge<br><br>>> aussortiert, die nur einfache Trennzeichen enthalten (darunter eben auch<br><br>>> „chauffierender“ und „schmatzende“), sodass patgen gar nicht wissen kann,<br><br>>> dass diese Wörter keine „Trennstelle“ (Ligaturaufbruchstelle) enthalten<br><br>>> dürfen.<br><br><br><br>Ein weiteres Problem mit den Mustern, die mit dem make-Ziel „major“ <br><br>erstellt werden, ist die Unterdrückung als ungünstig markierter <br><br>Trennstellen. So wird dann in „Genauffrischung“ (Gen=auf<.fri-schung) <br><br>die ff-Ligatur nicht aufgelöst.<br><br><br><br>> Scheint so. Ich habe jetzt ein neues Make-Ziel erstellt, dass eine passende<br><br>> Eingabedatei für patgen erzeugen sollte. Nach<br><br>><br><br>>    make exzerpte/de-1996-x-morphemgrenzen<br><br>><br><br>> sollte exzerpte/de-1996-x-morphemgrenzen einen Startpunkt für Ligaturaufbruch<br><br>> bieten. Ein analoges Ziel für AR kannst Du bei Bedarf leicht erstellen<br><br>> (de-1996 -> de-1901).<br><br><br><br>Vielen Dank!<br><br>Beim ersten Versuch, daraus Muster zu erzeugen, gab es nach dem 8. <br><br>Patgen-Durchlauf noch unabgedeckte Trennstellen, da „Integration“ in der <br><br>Wortliste uneinheitlich ausgezeichnet war (mit/ohne Präfix „in“).<br><br>Nachdem das korrigiert ist, reichen nun 7 Durchläufe.<br><br><br><br>Die Variante de-1901 habe ich auch probiert, aber da erscheinen dann <br><br>Einträge wie<br><br>Ack/kk}er-rü{cken<br><br>und<br><br>Deck/kk}ungs-lü{cke<br><br>Da muss wohl irgendein regulärer Ausdruck zu ausgreifend sein.<br><br><br><br>Gruß<br><br>Keno<br><br>_______________________________________________<br><br>Trennmuster mailing list<br><br><a href="mailto:Trennmuster@dante.de" target="_blank">Trennmuster@dante.de</a><br><br><a href="https://lists.dante.de/mailman/listinfo/trennmuster" rel="noreferrer" target="_blank">https://lists.dante.de/mailman/listinfo/trennmuster</a><br><br></blockquote></div></div>