[Trennmuster] Muster für gewichtete Trennstellen
Keno Wehr
wehr at abgol.de
Di Jun 7 16:50:34 CEST 2022
Liebe Trennfreunde,
bei den Vorbereitungen zu einem Trennalgorithmus mit gewichteten
Trennstellen (Variante b aus meiner E-Mail an diese Liste vom
25.09.2020) bin ich auf folgende Probleme gestoßen:
1. Der in „Trennstile.txt“ genannte Stil „Primärtrennstellen“ scheint
noch nicht in stilfilter.py implementiert zu sein (außerdem
wünschenswert wäre ein Filter für Sekundärtrennstellen).
Für die Primärtrennstellen habe ich stattdessen das Make-Ziel major
benutzt und im Makefile W=1 gesetzt.
2. Das Skript extract-tex.pl müsste noch an das vergleichsweise neue
Trennzeichen „<<“ angepasst werden.
3. Mit den bisherigen patgen-Parametern können keine fehlerfreien Muster
erzeugt werden. Für die NR ist die letzte patgen-Ausgabe beispielsweise
„532414 good, 682 bad, 1421 missed“. In der pattmp.8 finden sich
Einträge wie „ab-lieferung“, „acht-und-siebzig“ (Trennstellen nicht
vorhanden), „adoptions*vermittlungs.stelle“, „agrar.wissenschaft*ler“
(falsche Trennstelle). Dies hängt sehr wahrscheinlich mit den für diesen
Zweck zu klein gewählten Parameterwerten für den 3. und 4.
Patgen-Parameter zusammen. Wir müssen irgendwie von der bisherigen
Annahme weg, dass alle Mustersätze mit den gleichen Parameterwerten
erzeugt werden, und die Skripte flexibler gestalten. (Bei meinen
Versuchen mit größeren Parameterwerten kam „PATGEN capacity exceeded,
sorry“, ich versuche das demnächst noch mal mit einem selbst
kompilierten Patgen nach Werners Anleitung im Wiki.)
4. In einigen Fällen, insbesondere wo Präfix und Suffix vorhanden sind,
sollte die Auszeichnung überdacht werden. Für die oberste Trennebene
finde ich beispielsweise „Agro-busi-ness“ unglücklich. Da würde ich
lieber nur „Agro-business“ sehen.
Schöne Grüße
Keno
Mehr Informationen über die Mailingliste Trennmuster