[Trennmuster] »angreifungs« u.a.
Guenter Milde
milde at users.sf.net
Mi Nov 6 18:38:10 CET 2013
Liebe Trennmustler,
das Python-Skript "test_teilwoerter.py" testet für alle Teilwörter in
Wortverbindungen das Vorhandensein als Solitär.
Ein Aufruf
python test_teilwoerter.py
startet den Test, schreibt eine Kurzauswertung auf die Standardausgabe und
zwei Dateien mit "unbekannten" und "anders Großgeschriebenen" Wörtern und
den Wortverbindungen wo sie vorkommen.
Dabei wird auf häufige Ableitungen wie das Bindungs-S oder das Weglassen der
Endungen »e« und »en« Rücksicht genommen.
Die Liste der nur in Verbindungen vokommenden Wörter umfaßt über 3500
Einträge -- fehlende Wörter, "Halbwörter", fremdsprachige Wörter und
wirklich nur in Verbindungen gültige. Außerdem gibt es noch >~10000
Wörter, die nur in anderer Groß-/Kleinschreibung vorkommen.
Neben einer Entscheidungsgrundlage für die Aufnahme (oder Nichtaufnahme) von
Bindestrichwörtern wie "Heidel-" (für Heidel- und Preiselbeeren) können die
Listen auch Hiweise geben für:
* Fehleinträge
* Fehlende Einträge
* Fehlkategorisierungen wie "New=tons", "Nor=mann"
* "" wie Ober|rech-nungs=kam-mer -> Ober|=...
* ein Überdenken der Kategorisierung, z.B. "Pitz=tal" oder "Pitz-tal"
(Für den größten Teil der gelisteten Wörter besteht kein Handlungsbedarf.)
Günter
Mehr Informationen über die Mailingliste Trennmuster