[Trennmuster] [TSX] patgen: what do these values mean?

Herbert Voss Herbert.Voss at FU-Berlin.DE
Mi Apr 9 21:22:48 CEST 2014


Am 09.04.2014 20:31, schrieb Stephan Hennig:
> Am 09.04.2014 20:26, schrieb Herbert Voss:
>> Am 09.04.2014 20:08, schrieb Stephan Hennig:
>>
>>> falls sich jemand berufen fühlt, nähere Angaben zu den Patgen-Parametern
>>> good weight, bad weight, threshold zu machen, ist hier die passende Frage:
>>
>> Meinst du das hier?
>>
>> good*good_weight - bad*bad_weight >= threshold
>
> Ja, allerdings mit Erklärung.  Ziel ist es, ein Gefühl für sinnvolle
> Werte von good_weight, bad_weight und threshold abhängig von, tja,
> bestimmten Eigenschaften der Eingabeliste, zu bekommen.  Die Parameter
> sind ja nicht umsonst wählbar.

Die Gleichung ist experimentell bestimmt worden und hat erst mal
nichts mit den Eigenschaften der Eingabeliste zu tun, sondern ist
ein Abbruchkriterium. 1 1 1 heißt ja nichts weiter als das die Zahlen
der gefundenen guten und schlechten (falschen) Trennungen
faktisch gleichgewichtet sind. Deshalb gibt diese Kombination die
meisten Trennmuster. Ich könnte auch gleich mit 1 10 1 anfangen,
was ich allerdings noch nie ausprobiert habe. Dann müsste Patgen
ziemlich rumrödeln.

Genaueres findet man natürlich in der Dissertation. Aber auch dort
wird faktisch nicht mehr beschrieben.

Herbert



Mehr Informationen über die Mailingliste Trennmuster