[Trennmuster] Wie kategorisieren?

Guenter Milde milde at users.sf.net
Do Jan 23 23:34:46 CET 2014


Liebe Trennmustler,

nach zwei umfangreichen "Kommits", möchte ich etwas zur Vorgehensweise
beim Kategorisieren der Trennstellen erzählen.

Ich arbeite mit einer Mischung aus Korrekturen im Texteditor
(search/replace or regexp-replace, normalerweise mit augenscheinlicher
Prüfen jeder Ersetzung) und Übertragen der Änderungen mit
`skripte/python/abgleich_teilwoerter.py`. Die skriptbasierten Änderungen
werden auch noch einmal auf Fehler durchgesehen.

Die "Übertragsfunktionen" sind:

* Grundwortabgleich - überträgt Trennstellenkennzeichen von Wörtern mit
  gleichem Stamm, auf solche mit anderer Endung, z.B. von '' auf 'n'
  macht u.a. Stim-me -> Stim·men
  
* Teilwortabgleich - überträgt Trennstellenkennzeichen von Teilwörtern
  auf Komposita, z.b.
  
    Holz 
    Blas=in|stru-ment     
    
    macht aus Holz=blas·in·stru·ment  -> Holz=blas=in|stru-ment
    

Ziel ist es, bei der Kategorisierung

* mehr Fehler aufzuspüren als neue einzubauen,
* möglichst Einträge komplett zu kategorisieren, um die zeilenbasierte
  Versionsgeschichte im "git" nicht unnötig lang zu machen,
* "stabile" Zwischenstände zu haben.

Hilfreich für die Kategorisierung ist es, wenn 

* Neueinträge möglichst analog zu verwandten Einträgen kategorisiert werden.
* Wenn Einträge für Handkorrekturen angefaßt werden auch gleich die
  Trennstellen kategorisiert werden.
  
Es hilft auch, wenn erkannte Wortfugen mit "=" markiert werden,
selbst wenn die Einzelwörter unkategorisiert bleiben:

* "Haupttrennstell-Pattern" ("·" und "-" ignoriert) werden verbessert.
* In vielen Fällen kann das Skript die Einzelwörter schnell und einfach
  kategorisieren.
  
Ungünstig sind Markierungen mit '|', wenn sie nicht am Wortanfang (oder
Teilwortanfang) stehen:

* "Haupttrennstelle-Pattern" werden schlechter (z.B. "Körperein-satz" aus
  "Kör·per·ein|satz")
* skripte/python/analyse.py meldet unbekannte Vorsilben wie "ver·ein".
  
Ungünstig sind auch Fälle wo die "Massenauszeichnung" fehlschlägt wie
"Umlauf=ein=seil=bahn" (nicht "ein|seil", denn es wird nicht eingeseilt
sondern es gibt nur ein Seil) oder "ein|sam" (statt ein--sam).

weiter frohes Trennen,

Günter




Mehr Informationen über die Mailingliste Trennmuster