[Trennmuster] Wichtung von Woertern in Patgen
Guenter Milde
milde at users.sf.net
Fr Aug 8 18:01:43 CEST 2014
On 8.08.14, Werner LEMBERG wrote:
> >> Wie auch von Herbert bemerkt, sollten aus demselben Grund
> >> Abkürzungen wie UNESCO in eine Ausnahmeliste statt in die
> >> Trennmuster.
> Das mag ich nicht so sehr. Dann lieber einen Kommentar, den das
> Extraktionsskript erkennt und gegebenenfalls die ganze Zeile ausläßt.
Ja. Haben wir schon. (# Abk.)
> >> Alternativ könnte man solchen "Wörter" in Patgen zumindest ein
> >> anderes (geringeres) Gewicht geben:
> Hmm.
> >> ...
> >> un-er-zwun-ge-ne
> >> 4UNESCO
> >> 1un-ethisch
> >> un-fä-hig
> >> ...
> >
> >> Das Gewicht 1 vor dem nachfolgenden Wort ist notwendig, da
> >> Wortgewichte in der ersten Spalte nicht nur für ein Wort gelten,
> >> sondern für alle folgenden Wörter bis zum nächsten Wortgewicht
> Keinesfalls! Dadurch würde die Liste »stateful« werden (keine Ahnung,
> wie das im Deutschen heißt), und beliebiges Extrahieren aus der Datei
> wäre unmöglich.
> >> (oder man stellt gleich allen Wörtern ein Gewicht voran). Vorgabe
> >> für alle Gewichte ist 1,
> Auch das ist furchtbar häßlich.
Achtung: es hieß "in Patgen"! In der Wortliste steht
# UNESCO;UNESCO # Abk.
und ein "wichtendes" Extraktionsskript schreibt für die Patgen Eingabe
vor alle Zeilen ein Gewicht.
Für Patgen muß das nicht schön sein, nur verständlich ;-)
> > =====================================================================
> > Die im Endeffekt wichtigste Eigenschaft ist die korrekte Trennung von
> > möglichst vielen in der Liste nicht erfaßten Wörtern und Verbindungen!
> > =====================================================================
> >
> > Wie man diese Größe messen kann, ist mir (abgesehen von Tests mit
> > einem umfangreicheren Korpus als unserer Trennliste) leider nicht
> > bekannt.
> Mir auch nicht. Daher plädiere ich, die Wortliste zu erweitern,
> sobald wir fertig aufgeräumt haben.
Zum Erweitern habe ich
* ein Skript, welches "Trennvorschläge" erstellt.
* Ideen
* keine Zeit.
Für den obigen Test hatte ich inzwischen einen Vorschlag: aus der Wortliste
Stichproben ziehen (siehe die entsprechende Mail von vor ca. 2 Wochen).
Schönen Sommer
Günter
Mehr Informationen über die Mailingliste Trennmuster