[Trennmuster] Vorsilben
Stephan Hennig
mailing_list at arcor.de
Do Feb 9 01:09:36 CET 2012
Am 08.02.2012 23:30, schrieb Guenter Milde:
> ich habe jetzt die Ergebnisse eines ersten Testlaufs eines Algorithmus zur
> Vorsilbenauszeichnung zunächst nur für die Silbe "aus":
Du bringt ja richtig neuen Schwung hier herein! :-)
> # Wenn der Wortbestandteil hinter der getesteten Silbe im Wörterbuch
> # vorhanden ist, kann davon ausgegangen werden, daß es sich um eine Vorsilbe
> # handelt::
> Sicher erkannt: 6323
Zur Klarstellung: Du betrachtest hier nur bereits als Silben markierte
Vorkommen von 'aus'? Also nicht 'Haustüren'?
> Für die Lang-s Schreibung müßten noch die Vorsilben
> des| dis| los| und raus| markiert werden.
Was ist mit 'miss' in der Reformrechtschreibung?
> Im Verlauf des Tests wurden Korrekturen und Ergänzungen der
> Wortliste (des "master" Zweiges) vorgenommen (siehe Anhang).
Siehe unten.
> Dazu einige Fragen:
>
> * Groß/Kleinschreibung wird gegenwärtig nicht unterschieden.
>
> Vorschlag: Aufnahme von Groß/Klein Varianten, wenn es einen
> Bedeutungsunterschied gibt, z.B.
>
> reden (Verb)
> Reden (Mehrzahl von Rede)
>
> Blase (die Blase)
> blase (ich blase)
>
> aber nicht für reine Substantivierungen (z.B. Schreien)
>
> Ist das sinnvoll/gewünscht?
Welchen Zweck verfolgst du? Da bei der Worttrennung die Unterscheidung
zwischen Groß- und Kleinschreibung nicht sinnvoll ist, unterdrücken wir
in Homonymen bisher nicht übereinstimmende Trennungen (nachtritt,
Nachtritt) oder wir entscheiden uns für eine von beiden (spie-len-de vs.
Spiel-ende), siehe dehyph-exptl.pdf. Ob ein Wort im ersten Fall groß-
oder kleingeschrieben ist, ist vermutlich Zufall.
> * In einigen Fällen wurde mit regexp-replace ein Teil zusammengesetzter
> Wörter gewichtet, z.B.
>
> aus·drucks· --> aus-drucks=
>
> in 24 Wörtern, ohne Aufwand in die manuelle Wichtung des Restbestandteils
> zu stecken.
>
> Noch scheint es in der Wortliste keine Fälle von nur teilweise gewichteten
> Trennstellen in einem Wort zu geben.
> Sind solche "teilgewichteten" Einträge akzeptabel?
Ich hätte nichts dagegen, da es die Restkontrolle vereinfacht und nicht
erschwert. Ich habe allerdings keine Ahnung, ob die Skripten
extract-*.pl damit ein Problem haben (Werner?), würde das aber bei der
Portierung nach Lua im Hinterkopf behalten.
> * Was bedeuten die Wörter "aus|bau=ei-gen" und "aus|bau=lo-kal"?
> Gibt es die wirklich oder sind das Fehleinträge?
Beide Wörter kommen in der Google-Books-Liste,
<URL:http://projekte.dante.de/Trennmuster/GoogleBooksListe>, nicht vor.
Da wir früher oder später auf jene Liste migrieren werden, können die
beiden wohl entfernt werden.
Könntest du die DIFF-Datei in thematische Happen aufteilen?
Fehlerkorrekturen:
-Ausdrucksbewegungn;Aus·drucks·be·we·gungn
Korrektur der Groß-/Kleinschreibung:
-Atmendes;At·men·des
+atmendes;at·men·des
tatsächliche Trennstellenklassifikationen:
-aussichtsvolleren;aus·sichts·vol·le·ren
+aussichtsvolleren;aus-sichts=vol·le·ren
Außerdem enthält die Wortliste bisher Wörter mit weniger als vier
Buchstaben nicht. Für die s/ſ-Wandlung ist das natürlich notwendig.
Für solche Wörter würde ich ebenfalls einen eigenen Commit vorziehen.
Viele Grüße,
Stephan Hennig
Mehr Informationen über die Mailingliste Trennmuster