[Trennmuster] [TSX] patgen: what do these values mean?
Herbert Voss
Herbert.Voss at FU-Berlin.DE
Do Apr 10 08:24:35 CEST 2014
Am 09.04.2014 23:29, schrieb Stephan Hennig:
>>>> good*good_weight - bad*bad_weight >= threshold
>>
>> Die Gleichung ist experimentell bestimmt worden und hat erst mal
>> nichts mit den Eigenschaften der Eingabeliste zu tun, sondern ist
>> ein Abbruchkriterium.
>
> Bei welchem Schritt kommt die Gleichung zur Anwendung? Was wird
> abgebrochen? Mir ist zum Beispiel nicht klar, ob pro Stufe die besten
> Muster (die, mit dem geringsten Zuwachs) verwendet werden oder die
> ersten paar Muster (bis die Schwelle überschritten ist).
Dazu müsste man genau in den Code von Patgen sehen.
>> 1 1 1 heißt ja nichts weiter als das die Zahlen
>> der gefundenen guten und schlechten (falschen) Trennungen
>> faktisch gleichgewichtet sind.
>
> Ich nehme an, du meintest das Tupel (1, 1, 0). Die Interpretation
Nein, ich meinte schon 1 1 1, weil das häufig in Büchern auftaucht,
allerdings ohne weitere Erklärung.
> dieser Parameter bzw. (a, a, 0) ist relativ klar. Wir verwenden
> allerdings tatsächlich threshold = 1 und nicht 0 (siehe
> skripte/make-full-pattern.sh). Weshalb?
Weil man wenigstens ein gute Trennung mehr haben will.
>> Deshalb gibt diese Kombination die meisten Trennmuster.
>
> Ein recht eiliger Schluss. Gibt es dafür auch eine Erklärung?
Weil die einzelnen Muster wegen der schwachen Vorgabe (1 1 1) keiner
großartigen Kontrolle unterliegen.
>> Ich könnte auch gleich mit 1 10 1 anfangen, was ich allerdings noch
>> nie ausprobiert habe. Dann müsste Patgen ziemlich rumrödeln.
>
> Was soll damit bezweckt werden, schlechte Trennungen zu bestrafen? Da
"schlechte" Trennung ist missverständlich; es sind ja falsche.
> abwechselnd ermöglichende und verhindernde Muster erzeugt werden,
> besteht zwischen guten und schlechten Trennungen weitgehend Symmetrie.
Was genau meinst du jetzt mit "schechten" Trennungen.?
> Weshalb muss noch mit Strafpunkten nachgeholfen werden?
Es ist doch alles nur wahscheinlichkeitsbasiert, also _in jedem Fall_
fehlerhaft.
>> Genaueres findet man natürlich in der Dissertation. Aber auch dort
>> wird faktisch nicht mehr beschrieben.
>
> Als ich die Dissertation gelesen hatte, hatte ich mich an einem anderen,
> globalen Ansatz zur Mustererzeugung versucht. Die genaue Vorgehensweise
> von Patgen hatte ich daher nie genau studiert. Mein Versuch ist
> letztlich im Sande verlaufen (war aber nicht umsonst). :-)
Man muss in den Quellcode von Patgen sehen, in der im Netz zu finden
Dissertation fehlt der gesamte Quellcode.
Herbert
Mehr Informationen über die Mailingliste Trennmuster