[Trennmuster] podiff.sh

Stephan Hennig sh-list at posteo.net
Di Apr 21 22:02:26 CEST 2015


Am 20.04.2015 um 20:07 schrieb Werner LEMBERG:

>> Insbesondere enthält die so erzeugte Differenzdatei 78.diff
>> diejenigen Wörter die erst nach dem letzten Patgenlauf richtig
>> getrennt wurden (sofern Patgen mit "0 bad, 0 missed" endet).
> 
> Allerdings ist das die uninteressanteste Differenzdatei.  Viel
> wichtiger sind die Unterschiede von
> 
>   diff -u alt/pattmp.4 neu/pattmp.4
>   diff -u alt/pattmp.5 neu/pattmp.5
>   diff -u alt/pattmp.6 neu/pattmp.6
>   diff -u alt/pattmp.7 neu/pattmp.7

Das läuft bei podiff.sh ja ähnlich, nur dass nicht pattmp.<n> zweier
Commits verglichen werden, sondern die zuvor gebildeten Differenzen.

Bilde ich nach Deinem Ansatz die Differenz für

  dehyphn-x/pattmp.4

bezüglich der Commits

  dehyph-exptl-v0.40           22.5.2014
  189cfc4                      18.4.2015

dann erhalte ich eine Datei mit ca. 15000 Zeilen und einer Größe um die
270 kB.  Ähnlich für dehyphn-x/pattmp.5.  Nach meinem Ansatz, wo
erst die Differenzen zwischen pattmp.4 und pattmp.5 und danach die
Differenz über beide Commits gebildet wird, erhalte ich eine Datei mit
1000 Zeilen und einer Größe von 17 kB.  Da scheint weniger Spreu dabei
zu sein.  Jedenfalls bin ich im Zuge der Veröffentlichungen bei der
suche nach einem effektiven Änderungsfilter bei diesem Verfahren gelandet.


> Da suche ich dann in den Plus-Minus-Zeilen (also den Differenzen) nach
> »-« und ».«.  Viele Tippfehler sind nur so zu entdecken, da die
> »höheren« Durchläufe aufgrund der längeren Muster die Fehler
> korrigierend verbergen.

Mein Verfahren zielt nicht primär auf die Fehlersuche, sondern auf die
Suche nach Änderungen.  So dass /neue/ Fehler leicht gefunden werden können.

Viele Grüße,
Stephan Hennig




Mehr Informationen über die Mailingliste Trennmuster