[Trennmuster] Muster für gewichtete Trennstellen

Di Jun 7 16:50:34 CEST 2022

Liebe Trennfreunde,

bei den Vorbereitungen zu einem Trennalgorithmus mit gewichteten 
Trennstellen (Variante b aus meiner E-Mail an diese Liste vom 
25.09.2020) bin ich auf folgende Probleme gestoßen:

1. Der in „Trennstile.txt“ genannte Stil „Primärtrennstellen“ scheint 
noch nicht in stilfilter.py implementiert zu sein (außerdem 
wünschenswert wäre ein Filter für Sekundärtrennstellen).

Für die Primärtrennstellen habe ich stattdessen das Make-Ziel major 
benutzt und im Makefile W=1 gesetzt.

2. Das Skript extract-tex.pl müsste noch an das vergleichsweise neue 
Trennzeichen „<<“ angepasst werden.

3. Mit den bisherigen patgen-Parametern können keine fehlerfreien Muster 
erzeugt werden. Für die NR ist die letzte patgen-Ausgabe beispielsweise 
„532414 good, 682 bad, 1421 missed“. In der pattmp.8 finden sich 
Einträge wie „ab-lieferung“, „acht-und-siebzig“ (Trennstellen nicht 
vorhanden), „adoptions*vermittlungs.stelle“, „agrar.wissenschaft*ler“ 
(falsche Trennstelle). Dies hängt sehr wahrscheinlich mit den für diesen 
Zweck zu klein gewählten Parameterwerten für den 3. und 4. 
Patgen-Parameter zusammen. Wir müssen irgendwie von der bisherigen 
Annahme weg, dass alle Mustersätze mit den gleichen Parameterwerten 
erzeugt werden, und die Skripte flexibler gestalten. (Bei meinen 
Versuchen mit größeren Parameterwerten kam „PATGEN capacity exceeded, 
sorry“, ich versuche das demnächst noch mal mit einem selbst 
kompilierten Patgen nach Werners Anleitung im Wiki.)

4. In einigen Fällen, insbesondere wo Präfix und Suffix vorhanden sind, 
sollte die Auszeichnung überdacht werden. Für die oberste Trennebene 
finde ich beispielsweise „Agro-busi-ness“ unglücklich. Da würde ich 
lieber nur „Agro-business“ sehen.

Schöne Grüße
Keno