[Trennmuster] Wichtung von Woertern in Patgen

Guenter Milde milde at users.sf.net
Fr Aug 8 18:01:43 CEST 2014


On  8.08.14, Werner LEMBERG wrote:

> >> Wie auch von Herbert bemerkt, sollten aus demselben Grund
> >> Abkürzungen wie UNESCO in eine Ausnahmeliste statt in die
> >> Trennmuster.

> Das mag ich nicht so sehr.  Dann lieber einen Kommentar, den das
> Extraktionsskript erkennt und gegebenenfalls die ganze Zeile ausläßt.

Ja. Haben wir schon. (# Abk.)

> >> Alternativ könnte man solchen "Wörter" in Patgen zumindest ein
> >> anderes (geringeres) Gewicht geben:

> Hmm.



> >>   ...
> >>   un-er-zwun-ge-ne
> >>   4UNESCO
> >>   1un-ethisch
> >>   un-fä-hig
> >>   ...
> >
> >> Das Gewicht 1 vor dem nachfolgenden Wort ist notwendig, da
> >> Wortgewichte in der ersten Spalte nicht nur für ein Wort gelten,
> >> sondern für alle folgenden Wörter bis zum nächsten Wortgewicht

> Keinesfalls!  Dadurch würde die Liste »stateful« werden (keine Ahnung,
> wie das im Deutschen heißt), und beliebiges Extrahieren aus der Datei
> wäre unmöglich.

> >> (oder man stellt gleich allen Wörtern ein Gewicht voran).  Vorgabe
> >> für alle Gewichte ist 1,

> Auch das ist furchtbar häßlich.

Achtung: es hieß "in Patgen"! In der Wortliste steht

  # UNESCO;UNESCO # Abk.
  
und ein "wichtendes" Extraktionsskript schreibt für die Patgen Eingabe
vor alle Zeilen ein Gewicht.

Für Patgen muß das nicht schön sein, nur verständlich ;-)
  

> > =====================================================================
> > Die im Endeffekt wichtigste Eigenschaft ist die korrekte Trennung von
> > möglichst vielen in der Liste nicht erfaßten Wörtern und Verbindungen!
> > =====================================================================
> >
> > Wie man diese Größe messen kann, ist mir (abgesehen von Tests mit
> > einem umfangreicheren Korpus als unserer Trennliste) leider nicht
> > bekannt.

> Mir auch nicht.  Daher plädiere ich, die Wortliste zu erweitern,
> sobald wir fertig aufgeräumt haben.

Zum Erweitern habe ich 

* ein Skript, welches "Trennvorschläge" erstellt.
* Ideen
* keine Zeit.

Für den obigen Test hatte ich inzwischen einen Vorschlag: aus der Wortliste
Stichproben ziehen (siehe die entsprechende Mail von vor ca. 2 Wochen).

Schönen Sommer

Günter




Mehr Informationen über die Mailingliste Trennmuster