[Trennmuster] Wie kategorisieren?
Guenter Milde
milde at users.sf.net
Do Jan 23 23:34:46 CET 2014
Liebe Trennmustler,
nach zwei umfangreichen "Kommits", möchte ich etwas zur Vorgehensweise
beim Kategorisieren der Trennstellen erzählen.
Ich arbeite mit einer Mischung aus Korrekturen im Texteditor
(search/replace or regexp-replace, normalerweise mit augenscheinlicher
Prüfen jeder Ersetzung) und Übertragen der Änderungen mit
`skripte/python/abgleich_teilwoerter.py`. Die skriptbasierten Änderungen
werden auch noch einmal auf Fehler durchgesehen.
Die "Übertragsfunktionen" sind:
* Grundwortabgleich - überträgt Trennstellenkennzeichen von Wörtern mit
gleichem Stamm, auf solche mit anderer Endung, z.B. von '' auf 'n'
macht u.a. Stim-me -> Stim·men
* Teilwortabgleich - überträgt Trennstellenkennzeichen von Teilwörtern
auf Komposita, z.b.
Holz
Blas=in|stru-ment
macht aus Holz=blas·in·stru·ment -> Holz=blas=in|stru-ment
Ziel ist es, bei der Kategorisierung
* mehr Fehler aufzuspüren als neue einzubauen,
* möglichst Einträge komplett zu kategorisieren, um die zeilenbasierte
Versionsgeschichte im "git" nicht unnötig lang zu machen,
* "stabile" Zwischenstände zu haben.
Hilfreich für die Kategorisierung ist es, wenn
* Neueinträge möglichst analog zu verwandten Einträgen kategorisiert werden.
* Wenn Einträge für Handkorrekturen angefaßt werden auch gleich die
Trennstellen kategorisiert werden.
Es hilft auch, wenn erkannte Wortfugen mit "=" markiert werden,
selbst wenn die Einzelwörter unkategorisiert bleiben:
* "Haupttrennstell-Pattern" ("·" und "-" ignoriert) werden verbessert.
* In vielen Fällen kann das Skript die Einzelwörter schnell und einfach
kategorisieren.
Ungünstig sind Markierungen mit '|', wenn sie nicht am Wortanfang (oder
Teilwortanfang) stehen:
* "Haupttrennstelle-Pattern" werden schlechter (z.B. "Körperein-satz" aus
"Kör·per·ein|satz")
* skripte/python/analyse.py meldet unbekannte Vorsilben wie "ver·ein".
Ungünstig sind auch Fälle wo die "Massenauszeichnung" fehlschlägt wie
"Umlauf=ein=seil=bahn" (nicht "ein|seil", denn es wird nicht eingeseilt
sondern es gibt nur ein Seil) oder "ein|sam" (statt ein--sam).
weiter frohes Trennen,
Günter
Mehr Informationen über die Mailingliste Trennmuster