[Trennmuster] Datenstruktur
Guenter Milde
milde at users.sf.net
Mi Apr 9 17:15:52 CEST 2014
On 8.04.14, Tobias Wendorff wrote:
> Die meisten Einträge in unser jetzigen Wortliste folgen dem gleichen
> Trennungsschema, weil sie keine Besonderheiten haben. Wir führen sie
> ja nur, um sichere Trennungen zu erhalten.
Das Schöne am patgen ist ja, daß genau diese Schemata automatisch erkannt
und bei der Mustergeneration "ausgebeutet" werden um die Zahl der
generierten Muster zu optimieren.
Von manchen wird es allerdings als Nachteil empfunden, daß dieser
Automatismus automatisch ist, ohne Rückkopplung an bekannte Regeln der
entsprechenden Sprache.
Ich überlege, ob wir die Muster ggf. optimieren können, wenn wir in einem
Vor-Lauf zunächst nur Grundwörter (bzw. nur an Haupttrennstellen) trennen
und im zweiten Lauf patgen mit den so generierten Mustern "anfüttern".
> Beispiel:
> Sobald zwei "Grundwörter" aufeinander treffen, wäre dies die erste,
> favorisierte Trennstelle:
> - Obst=baum
> - Bir-nen=baum
> Wir würden keinen "Bananenbaum" aufnehmen, weil es ihn nicht gibt.
> Am Trennschema ändert sich aber nix. "Banane" ist drin, "Baum" ist
> drin.
Das ist/war der Ansatz von SiSiSi: Grundwörter aufnehmen, Ausnahmen von
der Sprechsilbenregel markieren und den Rest über Algorithmen. Allerdings
sind da (zumindest in der freien Grundvariante) recht viele
Fehltrennungen aufgetreten.
Ich bin daher für einen anderen Weg:
Als Ergänzung zum klassischen TeX-Trennalgorithmus kann eine
Grundwortsuche angeschlossen werden, wenn ein Wort (ggf. mit einer
Mindestlänge) nicht getrennt werden kann (weil es in userer Liste fehlt).
Das wäre eine effiziente Methode, um mit neuen und seltenen Komposita
klarzukommen ohne das Tor für Fehltrennungen zu öffnen.
Ich denke, daß damit ein besonders häufiger Problemfall gelöst werden kann, da
* untrennbare lange Wörter häufig zu Zeilenüberläufen führen
* die deutsche Sprache in dieser hinsicht so produktiv ist, daß wir
unmöglich alle erlaubten Bildungen aufnehmen können.
Günter
Mehr Informationen über die Mailingliste Trennmuster