[Trennmuster] Warum nicht sisisi
Stephan Hennig
mailing_list at arcor.de
Fr Nov 29 21:38:34 CET 2013
Am 29.11.2013 20:56, schrieb Herbert Voss:
> Am 29.11.2013 20:41, schrieb Stephan Hennig:
>> Am 29.11.2013 18:00, schrieb Herbert Voss:
>>
>>> Kurzum: Es würde viel mehr Sinn machen, eine Kombination aus patgen
>>> und einem neuentwickelten SiSiSi (X) zu haben.
>>> [...]
>>> Für patgen selbst braucht man dabei keine besonders umfangreiche
>>> Liste.
>>
>> Sondern? Führe das mal bitte weiter aus.
>
> Es gibt keinerlei Untersuchungen über die Qualität der Trennmuster
> in Bezug auf den zugrundeliegenden Datenbestand. Sollte man die
> Wörter zufällig wählen, sollte es ein Mix aus kurz oder lang sein,
> sollte es ein Mix aus Umgangssprache oder Fachsprache sein, oder
> sollte es eher kurze oder lange Muster, oder ...
>
> Wenn ich es richtig im Kopf habe, besteht die englische Datei
> aus ca 50 Tsnd Wörtern. Gut, Deutsch ist etwas anders :-)
> Aber aus meinen Spielereien mit PaTgen schließe ich, dass man
> ab 200 000 richtig getrennten Wörtern keine wesentliche
> Verbesserung der Trennmuster wird erzeugen können. Falsche
> Trennungen über eine Ausnahmeliste zu erfassen, erscheint mir
> sinnvoller, als den Datenbestand permanent zu erhöhen.
Was ist denn der Zweck der Übung? Welches Problem möchtest Du mit einer
kleineren Liste lösen?
> Der Vorteil des wahrscheinlichkeitsbasierten Verfahrens ist ja gerade
> die Tatsache, dass ich keinen großen Datenbestand brauche.
> Und die optimale Lösung wäre ein SiSiSi, welches eure erstelle
> Wortliste als Grundlage nimmt und die Wörter in die von mir
> erwähnte Form bringt. Aber das sagte ich ja schon ... Eine
> Pearl/Python/was-auch-immer Lösung erscheint mir sinnvoller.
> Mit LuaTeX könnte man es integrieren, aber LuaTeX ist jetzt
> schon grottenlangsam ...
Verstehe ich Dich richtig, dass Du einen Algorithmus vorschlägst, der
mit einer kleineren Wortliste für Patgen auskommt, auf Kosten der
Trennqualität und des Implementierungsaufwandes? Welchen eigenen Nutzen
siehst Du in einer kleine Wortliste? Mit der Stufe Patgen kommt der
Anwender (Autor) doch gar nicht in Berührung.
Hier mal ein paar Vorteile des Liangschen Trennalgorithmus:
* Er ist erschreckend einfach zu verstehen.
* Er ist sprachunabhängig.
* Das Eingabeformat für Patgen ist für einen Drittklässler
verständlich. (Was mich mich zum Bearbeiten der Wortliste
qualifiziert. Bei einem morphologischen Klassifizierer gäbe
er vermutlich eine Sprachbarriere.)
* Der Trennalgorithmus ist schnell (O(n) mit n = Wortlänge,
und die zugrundeliegenden Operationen sind sehr leichtgewichtig:
je Buchstabe ein Tabellenzugriff [für die Zustandsänderung des
Automaten] und eine schlecht zu schätzende, aber geringe Zahl
von Vergleichen [zur Maximumbestimmung]).
* Wie schon erwähnt, kommen Anwender mit dem rechenaufwendigen
Prozess der Mustererstellung nicht in Berührung.
Vorteile eines anderen Algorithmus kann ich nur erkennen, wenn dieser in
der Lage ist, Trennstellen gleicher Klasse unterschiedlich zu wichten.
Viele Grüße,
Stephan Hennig
Mehr Informationen über die Mailingliste Trennmuster