<html>
<head>
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
</head>
<body>
<font face="monospace">Liebe Trennfreunde,<br>
<br>
für den gewichteten Trennalgorithmus von autotype werden drei
Mustersätze für Trennstellen unterschiedlicher Güte benötigt; für
die dritte Güte werden dabei die altbekannten gewöhnlichen
Trennmuster verwendet, für die erste und zweite Güte haben unsere
Skripte bisher keine einfache Möglichkeit angeboten. Daher habe
ich jetzt Anpassungen am Makefile und dem Skript
make-full-pattern.sh vorgenommen. Mit<br>
</font>
<blockquote><font face="monospace">make primary pattern-refo</font><br>
</blockquote>
<font face="monospace">etc. und<br>
</font>
<blockquote><font face="monospace">make secondary pattern-refo</font><br>
</blockquote>
<font face="monospace">etc. lassen sich Trennmuster erzeugen, die
nur Primär- bzw. nur Primär- und Sekundärtrennstellen zulassen.
Diese entsprechen dem Make-Ziel major mit den Parameterwerten W=1
bzw. W=2. Die Voraussetzung für diese Aufrufe ist allerdings ein
selbstkompiliertes patgen, da wesentlich längere Muster auftreten
können als bei den gewöhnlichen Mustern, was mit den
voreingestellten Parametern von patgen nicht möglich ist. Daher
habe ich Werners Anleitung zur patgen-Compilierung um einen
Abschnitt ergänzt, in dem die notwendigen Codeänderungen
beschrieben werden:
<a class="moz-txt-link-freetext" href="https://wiki.dante.de/doku.php?id=trennmuster:patgen_selbst_kompilieren">https://wiki.dante.de/doku.php?id=trennmuster:patgen_selbst_kompilieren</a><br>
<br>
Korrekte Muster lassen sich nur erzeugen, wenn der vierte
patgen-Parameter (maximale Musterlänge) im letzten Durchlauf auf
35 ansteigt (gegenüber 12 bei gewöhnlichen Trennmustern). Die
typische Problematik, die solch lange Muster nötig macht, zeigen
die folgenden Ausschnitte aus pattmp.5 für Primärtrennstellen auf:<br>
</font>
<blockquote><font face="monospace">europa*meistern</font><br>
<font face="monospace">europa*meisters</font><br>
<font face="monospace">europa-meisterschaft</font><br>
<font face="monospace">europa-meisterschaften</font><br>
<font face="monospace">europameisterschafts*spiel</font><br>
<font face="monospace">europameisterschafts*spiele<br>
<br>
sozial*hilfe*empfaenger<br>
sozial.hilfeempfaenger*anteil<br>
sozial.hilfeempfaenger*anteile<br>
sozial.hilfeempfaenger*anteilen<br>
sozial.hilfeempfaenger*anteils<br>
sozial*hilfe*empfaengerin<br>
</font></blockquote>
<font face="monospace">Um zu entscheiden, ob eine Trennstelle
zulässig ist, muss bei langen Komposita enorm viel Kontext
berücksichtigt werden.<br>
Das führt auch dazu, dass mehr Muster nötig sind (etwa Faktor 3
bei Primärtrennstellen gegenüber gewöhnlichen Trennstellen) und
ohne Frage auch die Verallgemeinerbarkeit auf nicht in der Liste
erfasste Wörter leidet.<br>
</font><font face="monospace"><br>
Im Moment tauchen mit den o.g. Makefile-Aufrufen noch
Fehlermeldungen auf, da das Trennzeichen << nicht von
extract-tex.pl unterstützt wird. Die Benutzbarkeit der Muster wird
dadurch aber nicht beeinträchtigt.<br>
<br>
Schöne Grüße<br>
Keno<br>
</font>
</body>
</html>