[Trennmuster] [TSX] patgen: what do these values mean?

Herbert Voss Herbert.Voss at FU-Berlin.DE
Do Apr 10 08:24:35 CEST 2014


Am 09.04.2014 23:29, schrieb Stephan Hennig:

>>>> good*good_weight - bad*bad_weight >= threshold
>>
>> Die Gleichung ist experimentell bestimmt worden und hat erst mal
>> nichts mit den Eigenschaften der Eingabeliste zu tun, sondern ist
>> ein Abbruchkriterium.
>
> Bei welchem Schritt kommt die Gleichung zur Anwendung?  Was wird
> abgebrochen?  Mir ist zum Beispiel nicht klar, ob pro Stufe die besten
> Muster (die, mit dem geringsten Zuwachs) verwendet werden oder die
> ersten paar Muster (bis die Schwelle überschritten ist).

Dazu müsste man genau in den Code von Patgen sehen.

>> 1 1 1 heißt ja nichts weiter als das die Zahlen
>> der gefundenen guten und schlechten (falschen) Trennungen
>> faktisch gleichgewichtet sind.
>
> Ich nehme an, du meintest das Tupel (1, 1, 0).  Die Interpretation

Nein, ich meinte schon 1 1 1, weil das häufig in Büchern auftaucht,
allerdings ohne weitere Erklärung.

> dieser Parameter bzw. (a, a, 0) ist relativ klar.  Wir verwenden
> allerdings tatsächlich threshold = 1 und nicht 0 (siehe
> skripte/make-full-pattern.sh).  Weshalb?

Weil man wenigstens ein gute Trennung mehr haben will.

>> Deshalb gibt diese Kombination die meisten Trennmuster.
>
> Ein recht eiliger Schluss.  Gibt es dafür auch eine Erklärung?

Weil die einzelnen Muster wegen der schwachen Vorgabe (1 1 1) keiner 
großartigen Kontrolle unterliegen.

>> Ich könnte auch gleich mit 1 10 1 anfangen, was ich allerdings noch
>> nie ausprobiert habe. Dann müsste Patgen ziemlich rumrödeln.
>
> Was soll damit bezweckt werden, schlechte Trennungen zu bestrafen?  Da

"schlechte" Trennung ist missverständlich; es sind ja falsche.

> abwechselnd ermöglichende und verhindernde Muster erzeugt werden,
> besteht zwischen guten und schlechten Trennungen weitgehend Symmetrie.

Was genau meinst du jetzt mit "schechten" Trennungen.?

> Weshalb muss noch mit Strafpunkten nachgeholfen werden?

Es ist doch alles nur wahscheinlichkeitsbasiert, also _in jedem Fall_
fehlerhaft.

>> Genaueres findet man natürlich in der Dissertation. Aber auch dort
>> wird faktisch nicht mehr beschrieben.
>
> Als ich die Dissertation gelesen hatte, hatte ich mich an einem anderen,
> globalen Ansatz zur Mustererzeugung versucht.  Die genaue Vorgehensweise
> von Patgen hatte ich daher nie genau studiert.  Mein Versuch ist
> letztlich im Sande verlaufen (war aber nicht umsonst). :-)

Man muss in den Quellcode von Patgen sehen, in der im Netz zu finden
Dissertation fehlt der gesamte Quellcode.

Herbert




Mehr Informationen über die Mailingliste Trennmuster