[Trennmuster] Unterstützung für Primär- und Sekundärtrennstellen
Keno Wehr
wehr at abgol.de
Fr Aug 18 23:40:49 CEST 2023
Liebe Trennfreunde,
für den gewichteten Trennalgorithmus von autotype werden drei
Mustersätze für Trennstellen unterschiedlicher Güte benötigt; für die
dritte Güte werden dabei die altbekannten gewöhnlichen Trennmuster
verwendet, für die erste und zweite Güte haben unsere Skripte bisher
keine einfache Möglichkeit angeboten. Daher habe ich jetzt Anpassungen
am Makefile und dem Skript make-full-pattern.sh vorgenommen. Mit
make primary pattern-refo
etc. und
make secondary pattern-refo
etc. lassen sich Trennmuster erzeugen, die nur Primär- bzw. nur Primär-
und Sekundärtrennstellen zulassen. Diese entsprechen dem Make-Ziel major
mit den Parameterwerten W=1 bzw. W=2. Die Voraussetzung für diese
Aufrufe ist allerdings ein selbstkompiliertes patgen, da wesentlich
längere Muster auftreten können als bei den gewöhnlichen Mustern, was
mit den voreingestellten Parametern von patgen nicht möglich ist. Daher
habe ich Werners Anleitung zur patgen-Compilierung um einen Abschnitt
ergänzt, in dem die notwendigen Codeänderungen beschrieben werden:
https://wiki.dante.de/doku.php?id=trennmuster:patgen_selbst_kompilieren
Korrekte Muster lassen sich nur erzeugen, wenn der vierte
patgen-Parameter (maximale Musterlänge) im letzten Durchlauf auf 35
ansteigt (gegenüber 12 bei gewöhnlichen Trennmustern). Die typische
Problematik, die solch lange Muster nötig macht, zeigen die folgenden
Ausschnitte aus pattmp.5 für Primärtrennstellen auf:
europa*meistern
europa*meisters
europa-meisterschaft
europa-meisterschaften
europameisterschafts*spiel
europameisterschafts*spiele
sozial*hilfe*empfaenger
sozial.hilfeempfaenger*anteil
sozial.hilfeempfaenger*anteile
sozial.hilfeempfaenger*anteilen
sozial.hilfeempfaenger*anteils
sozial*hilfe*empfaengerin
Um zu entscheiden, ob eine Trennstelle zulässig ist, muss bei langen
Komposita enorm viel Kontext berücksichtigt werden.
Das führt auch dazu, dass mehr Muster nötig sind (etwa Faktor 3 bei
Primärtrennstellen gegenüber gewöhnlichen Trennstellen) und ohne Frage
auch die Verallgemeinerbarkeit auf nicht in der Liste erfasste Wörter
leidet.
Im Moment tauchen mit den o.g. Makefile-Aufrufen noch Fehlermeldungen
auf, da das Trennzeichen << nicht von extract-tex.pl unterstützt wird.
Die Benutzbarkeit der Muster wird dadurch aber nicht beeinträchtigt.
Schöne Grüße
Keno
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20230818/4685447c/attachment.htm>
Mehr Informationen über die Mailingliste Trennmuster