[Trennmuster] Wichtung von Woertern in Patgen

Werner LEMBERG wl at gnu.org
Fr Aug 8 13:41:47 CEST 2014


>> Wie auch von Herbert bemerkt, sollten aus demselben Grund
>> Abkürzungen wie UNESCO in eine Ausnahmeliste statt in die
>> Trennmuster.

Das mag ich nicht so sehr.  Dann lieber einen Kommentar, den das
Extraktionsskript erkennt und gegebenenfalls die ganze Zeile ausläßt.

>> Alternativ könnte man solchen "Wörter" in Patgen zumindest ein
>> anderes (geringeres) Gewicht geben:

Hmm.

>>   ...
>>   un-er-zwun-ge-ne
>>   4UNESCO
>>   1un-ethisch
>>   un-fä-hig
>>   ...
>
>> Das Gewicht 1 vor dem nachfolgenden Wort ist notwendig, da
>> Wortgewichte in der ersten Spalte nicht nur für ein Wort gelten,
>> sondern für alle folgenden Wörter bis zum nächsten Wortgewicht

Keinesfalls!  Dadurch würde die Liste »stateful« werden (keine Ahnung,
wie das im Deutschen heißt), und beliebiges Extrahieren aus der Datei
wäre unmöglich.

>> (oder man stellt gleich allen Wörtern ein Gewicht voran).  Vorgabe
>> für alle Gewichte ist 1,

Auch das ist furchtbar häßlich.

>> Kandidaten für geänderte Gewichte wären: [...]
>>

>> Für solche Experimente ist aber eine per Skript zu verarbeitende
>> Auszeichnung der entsprechenden Wörter in der Wortliste notwendig.
>
> Für eine erste Approximation reicht wahrscheinlich sogar schon ein
> Test auf Vorhandensein eines Kommentars aus: Im Allgemeinen weist
> ein Kommentar (i.e. Erklärungsbedarf) auf eine Abweichung von der
> Regel hin.

Jo.

> =====================================================================
> Die im Endeffekt wichtigste Eigenschaft ist die korrekte Trennung von
> möglichst vielen in der Liste nicht erfaßten Wörtern und Verbindungen!
> =====================================================================
>
> Wie man diese Größe messen kann, ist mir (abgesehen von Tests mit
> einem umfangreicheren Korpus als unserer Trennliste) leider nicht
> bekannt.

Mir auch nicht.  Daher plädiere ich, die Wortliste zu erweitern,
sobald wir fertig aufgeräumt haben, was meiner Meinung nach nicht mehr
allzulange dauern sollte, vor allem dank Günters vielen, vielen
Verbesserungen!


    Werner




Mehr Informationen über die Mailingliste Trennmuster