[Trennmuster] Unterstützung für Primär- und Sekundärtrennstellen

Keno Wehr wehr at abgol.de
Fr Aug 18 23:40:49 CEST 2023


Liebe Trennfreunde,

für den gewichteten Trennalgorithmus von autotype werden drei 
Mustersätze für Trennstellen unterschiedlicher Güte benötigt; für die 
dritte Güte werden dabei die altbekannten gewöhnlichen Trennmuster 
verwendet, für die erste und zweite Güte haben unsere Skripte bisher 
keine einfache Möglichkeit angeboten. Daher habe ich jetzt Anpassungen 
am Makefile und dem Skript make-full-pattern.sh vorgenommen. Mit

    make primary pattern-refo

etc. und

    make secondary pattern-refo

etc. lassen sich Trennmuster erzeugen, die nur Primär- bzw. nur Primär- 
und Sekundärtrennstellen zulassen. Diese entsprechen dem Make-Ziel major 
mit den Parameterwerten W=1 bzw. W=2. Die Voraussetzung für diese 
Aufrufe ist allerdings ein selbstkompiliertes patgen, da wesentlich 
längere Muster auftreten können als bei den gewöhnlichen Mustern, was 
mit den voreingestellten Parametern von patgen nicht möglich ist. Daher 
habe ich Werners Anleitung zur patgen-Compilierung um einen Abschnitt 
ergänzt, in dem die notwendigen Codeänderungen beschrieben werden: 
https://wiki.dante.de/doku.php?id=trennmuster:patgen_selbst_kompilieren

Korrekte Muster lassen sich nur erzeugen, wenn der vierte 
patgen-Parameter (maximale Musterlänge) im letzten Durchlauf auf 35 
ansteigt (gegenüber 12 bei gewöhnlichen Trennmustern). Die typische 
Problematik, die solch lange Muster nötig macht, zeigen die folgenden 
Ausschnitte aus pattmp.5 für Primärtrennstellen auf:

    europa*meistern
    europa*meisters
    europa-meisterschaft
    europa-meisterschaften
    europameisterschafts*spiel
    europameisterschafts*spiele

    sozial*hilfe*empfaenger
    sozial.hilfeempfaenger*anteil
    sozial.hilfeempfaenger*anteile
    sozial.hilfeempfaenger*anteilen
    sozial.hilfeempfaenger*anteils
    sozial*hilfe*empfaengerin

Um zu entscheiden, ob eine Trennstelle zulässig ist, muss bei langen 
Komposita enorm viel Kontext berücksichtigt werden.
Das führt auch dazu, dass mehr Muster nötig sind (etwa Faktor 3 bei 
Primärtrennstellen gegenüber gewöhnlichen Trennstellen) und ohne Frage 
auch die Verallgemeinerbarkeit auf nicht in der Liste erfasste Wörter 
leidet.

Im Moment tauchen mit den o.g. Makefile-Aufrufen noch Fehlermeldungen 
auf, da das Trennzeichen << nicht von extract-tex.pl unterstützt wird. 
Die Benutzbarkeit der Muster wird dadurch aber nicht beeinträchtigt.

Schöne Grüße
Keno
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20230818/4685447c/attachment.htm>


Mehr Informationen über die Mailingliste Trennmuster