[Trennmuster] Datenstruktur

Werner LEMBERG wl at gnu.org
Mi Apr 9 00:21:59 CEST 2014


> Sobald zwei "Grundwörter" aufeinander treffen, wäre dies die erste,
> favorisierte Trennstelle:
> - Obst=baum
> - Bir-nen=baum

Es gibt aber keinen Birnenbaum, sondern bloß einen Birnbaum.

> Wir würden keinen "Bananenbaum" aufnehmen, weil es ihn nicht gibt.
> Am Trennschema ändert sich aber nix. "Banane" ist drin, "Baum" ist
> drin.

Nach dieser Logik bräuchten wir bloß alle Teilwörter zu sammeln, und
wir hätten automatisch eine Liste von Haupttrennstellen.  Vielleicht
ist das ein möglicher Ansatz, aber mir gefällt er nicht.  Lieber ist
mir, wenn das *Ergebnis* unserer hochqualitativen Wortliste so einen
kombinatorischen Ansatz erlaubt, das heißt, daß eine Liste von
Teilwörtern quasi als Abfallprodukt entsteht.  Günters Vorgehensweise
ist ein Mittelding, weil extern verwaltet und ein Werkzeug zur
Bearbeitung der Wortliste; ich überlege allerdings ernsthaft, ob es
nicht sinnvoll wäre, diese Liste von Teilwörtern ebenfalls in die
Wortliste (also durch »make wortliste« o.ä.) zu integrieren, um
notfalls Trennstellen in Phrasen wie

   die Tyranno- und Gigantosaurier des Trias

für schmalen Spaltensatz zu ermöglichen.


    Werner




Mehr Informationen über die Mailingliste Trennmuster