[Trennmuster] Vorsilben

Do Feb 9 01:09:36 CET 2012

Am 08.02.2012 23:30, schrieb Guenter Milde:

> ich habe jetzt die Ergebnisse eines ersten Testlaufs eines Algorithmus zur
> Vorsilbenauszeichnung zunächst nur für die Silbe "aus":

Du bringt ja richtig neuen Schwung hier herein! :-)

> # Wenn der Wortbestandteil hinter der getesteten Silbe im Wörterbuch
> # vorhanden ist, kann davon ausgegangen werden, daß es sich um eine Vorsilbe
> # handelt::
> Sicher erkannt: 6323

Zur Klarstellung: Du betrachtest hier nur bereits als Silben markierte
Vorkommen von 'aus'?  Also nicht 'Haustüren'?

> Für die Lang-s Schreibung müßten noch die Vorsilben
> des| dis| los| und raus| markiert werden.

Was ist mit 'miss' in der Reformrechtschreibung?

> Im Verlauf des Tests wurden Korrekturen und Ergänzungen der
> Wortliste (des "master" Zweiges) vorgenommen (siehe Anhang). 

Siehe unten.

> Dazu einige Fragen:
> 
> * Groß/Kleinschreibung wird gegenwärtig nicht unterschieden.
> 
>   Vorschlag: Aufnahme von Groß/Klein Varianten, wenn es einen
>   Bedeutungsunterschied gibt, z.B. 
>   
>     reden (Verb)
>     Reden (Mehrzahl von Rede)
>     
>     Blase (die Blase)
>     blase (ich blase)
>     
>   aber nicht für reine Substantivierungen (z.B. Schreien)
> 
>   Ist das sinnvoll/gewünscht?

Welchen Zweck verfolgst du?  Da bei der Worttrennung die Unterscheidung
zwischen Groß- und Kleinschreibung nicht sinnvoll ist, unterdrücken wir
in Homonymen bisher nicht übereinstimmende Trennungen (nachtritt,
Nachtritt) oder wir entscheiden uns für eine von beiden (spie-len-de vs.
Spiel-ende), siehe dehyph-exptl.pdf.  Ob ein Wort im ersten Fall groß-
oder kleingeschrieben ist, ist vermutlich Zufall.

> * In einigen Fällen wurde mit regexp-replace ein Teil zusammengesetzter
>   Wörter gewichtet, z.B.
>   
>      aus·drucks·  --> aus-drucks=
>      
>   in 24 Wörtern, ohne Aufwand in die manuelle Wichtung des Restbestandteils
>   zu stecken.
>   
>   Noch scheint es in der Wortliste keine Fälle von nur teilweise gewichteten
>   Trennstellen in einem Wort zu geben.
>   Sind solche "teilgewichteten" Einträge akzeptabel?

Ich hätte nichts dagegen, da es die Restkontrolle vereinfacht und nicht
erschwert.  Ich habe allerdings keine Ahnung, ob die Skripten
extract-*.pl damit ein Problem haben (Werner?), würde das aber bei der
Portierung nach Lua im Hinterkopf behalten.

> * Was bedeuten die Wörter "aus|bau=ei-gen" und "aus|bau=lo-kal"?
>   Gibt es die wirklich oder sind das Fehleinträge?

Beide Wörter kommen in der Google-Books-Liste,
<URL:http://projekte.dante.de/Trennmuster/GoogleBooksListe>, nicht vor.
 Da wir früher oder später auf jene Liste migrieren werden, können die
beiden wohl entfernt werden.

Könntest du die DIFF-Datei in thematische Happen aufteilen?

Fehlerkorrekturen:
-Ausdrucksbewegungn;Aus·drucks·be·we·gungn

Korrektur der Groß-/Kleinschreibung:
-Atmendes;At·men·des
+atmendes;at·men·des

tatsächliche Trennstellenklassifikationen:
-aussichtsvolleren;aus·sichts·vol·le·ren
+aussichtsvolleren;aus-sichts=vol·le·ren

Außerdem enthält die Wortliste bisher Wörter mit weniger als vier
Buchstaben nicht.  Für die s/ſ-Wandlung ist das natürlich notwendig.
Für solche Wörter würde ich ebenfalls einen eigenen Commit vorziehen.

Viele Grüße,
Stephan Hennig