[Trennmuster] Warum nicht sisisi
Tobias Wendorff
tobias.wendorff at tu-dortmund.de
Fr Nov 29 19:37:29 CET 2013
Ich dachte patgen erzeugt nur die Muster?
Wie gut ist die kommerzielle SiSiSi-Anwendung denn? Wieso kann sie das, was sie kann? Wie kann sie über Algorithmen logisch bewerten?
Von einem iPhone gesendet und wird daher Fehler enthalten.
Am 29.11.2013 um 18:00 schrieb Herbert Voss <Herbert.Voss at FU-Berlin.DE>:
> Am 29.11.2013 06:41, schrieb Werner LEMBERG:
>>
>>> ich habe da mal 'ne Frage: Hat eigentlich schon mal jemand aus der
>>> Liste sisisi getestet?
>>
>> Ja. Ich habe die Ergebnisse eines SiSiSi-Durchlaufs (von einer sehr
>> alten Version) schon vor Jahren eingearbeitet – Du kannst das im
>> git-Repositorium Dir näher anschauen. Die Qualität vieler
>> Komposittrennungen war mehr als bescheiden, wie die nachfolgende
>> Arbeit von Günter gezeigt hat, in erster Linie, weil es nicht genug
>> Morpheme gab, um wirklich gut zu trennen.
>>
>> Vielleicht hat sich das inzwischen gebessert, allerdings ist das jetzt
>> ein kommerzielles Produkt. Während Anfragen von Nicht-Kaufwilligen in
>> der Regel ignoriert werden, wurde innerhalb von Tagen ein Verbot auf
>> der Homepage plaziert, das Demo-Interface per Web-Schnittstelle
>> anzusprechen, um beispielsweise eine längere Liste von Wörtern
>> abzuarbeiten...
>
> Ein paar Gedanken:
>
> SiSiSi als Idee ist geradezu prädestiniert für das, was
> ihr macht: Eine Liste zu erstellen mit gewichteten Trennungen.
> Dagegen ist die Anwendung von patgen irgendwann nicht mehr sinnvoll.
> Nämlich dann, wenn Eure Liste über 1 Million Wörter haben sollte.
> patgen ist ja so aufgebaut, dass es mindestens die Wörter der
> Liste richtig trennt und den Rest über die Wahrscheinlichkeit
> erledigt. Irgendwann rechnet es sich bei sehr großen Listen
> zutode ohne dass die korrekte Trennwahrscheinlichkeit der
> _nicht in der Liste vorhanden_ Wörter steigt.
>
> Kurzum: Es würde viel mehr Sinn machen, eine Kombination aus
> patgen und einem neuentwickelten SiSiSi (X) zu haben. Erst geht
> X über den TeX-Quelltext und fügt Trennungen in der Form
> "Auto\-mecha\-niker" ein, sodass andere dann nicht mehr möglich
> sind. Wörter, die von X nicht getrennt werden können, weil nicht
> in der Liste vorhanden, müssen von den mit patgen erstellten
> Trennmusterlisten erledigt werden. Für patgen selbst braucht
> man dabei keine besonders umfangreiche Liste.
>
> Herbert
> _______________________________________________
> Trennmuster mailing list
> Trennmuster at dante.de
> https://lists.dante.de/mailman/listinfo/trennmuster
Mehr Informationen über die Mailingliste Trennmuster