[Trennmuster] Warum nicht sisisi
Herbert Voss
Herbert.Voss at FU-Berlin.DE
Fr Nov 29 18:00:08 CET 2013
Am 29.11.2013 06:41, schrieb Werner LEMBERG:
>
>> ich habe da mal 'ne Frage: Hat eigentlich schon mal jemand aus der
>> Liste sisisi getestet?
>
> Ja. Ich habe die Ergebnisse eines SiSiSi-Durchlaufs (von einer sehr
> alten Version) schon vor Jahren eingearbeitet – Du kannst das im
> git-Repositorium Dir näher anschauen. Die Qualität vieler
> Komposittrennungen war mehr als bescheiden, wie die nachfolgende
> Arbeit von Günter gezeigt hat, in erster Linie, weil es nicht genug
> Morpheme gab, um wirklich gut zu trennen.
>
> Vielleicht hat sich das inzwischen gebessert, allerdings ist das jetzt
> ein kommerzielles Produkt. Während Anfragen von Nicht-Kaufwilligen in
> der Regel ignoriert werden, wurde innerhalb von Tagen ein Verbot auf
> der Homepage plaziert, das Demo-Interface per Web-Schnittstelle
> anzusprechen, um beispielsweise eine längere Liste von Wörtern
> abzuarbeiten...
Ein paar Gedanken:
SiSiSi als Idee ist geradezu prädestiniert für das, was
ihr macht: Eine Liste zu erstellen mit gewichteten Trennungen.
Dagegen ist die Anwendung von patgen irgendwann nicht mehr sinnvoll.
Nämlich dann, wenn Eure Liste über 1 Million Wörter haben sollte.
patgen ist ja so aufgebaut, dass es mindestens die Wörter der
Liste richtig trennt und den Rest über die Wahrscheinlichkeit
erledigt. Irgendwann rechnet es sich bei sehr großen Listen
zutode ohne dass die korrekte Trennwahrscheinlichkeit der
_nicht in der Liste vorhanden_ Wörter steigt.
Kurzum: Es würde viel mehr Sinn machen, eine Kombination aus
patgen und einem neuentwickelten SiSiSi (X) zu haben. Erst geht
X über den TeX-Quelltext und fügt Trennungen in der Form
"Auto\-mecha\-niker" ein, sodass andere dann nicht mehr möglich
sind. Wörter, die von X nicht getrennt werden können, weil nicht
in der Liste vorhanden, müssen von den mit patgen erstellten
Trennmusterlisten erledigt werden. Für patgen selbst braucht
man dabei keine besonders umfangreiche Liste.
Herbert
Mehr Informationen über die Mailingliste Trennmuster