[Trennmuster] Vorsilben

Guenter Milde milde at users.sf.net
Mi Feb 8 23:30:15 CET 2012


Liebe Trennmustler,

ich habe jetzt die Ergebnisse eines ersten Testlaufs eines Algorithmus zur
Vorsilbenauszeichnung zunächst nur für die Silbe "aus":

Gesamtwortzahl (traditionelle Rechtschreibung) 417648

# Suche nach der Silbe am Anfang eines Wortes oder Teilwortes:
Mit (Vor-) Silbe "aus" 8123

# Wenn der Wortbestandteil hinter der getesteten Silbe im Wörterbuch
# vorhanden ist, kann davon ausgegangen werden, daß es sich um eine Vorsilbe
# handelt::
Sicher erkannt: 6323

# Teste ohne Berücksichtigung der Groß/Kleinschreibung::
Restwort mit anderer Groß-/Kleinschreibung: 531

Unsichere Kandidaten (Restwort nicht gefunden): 1800

Eine Sichtkontrolle der "unsicheren Kandidaten" ergab, daß nur
"Altaussee" ein unklarer Fall ist (die vorgegebene Wortfuge in Alt=aus-see
erscheint mir fraglich).

Für die Lang-s Schreibung müßten noch die Vorsilben
des| dis| los| und raus| markiert werden.


Im Verlauf des Tests wurden Korrekturen und Ergänzungen der
Wortliste (des "master" Zweiges) vorgenommen (siehe Anhang). 
Dazu einige Fragen:

* Groß/Kleinschreibung wird gegenwärtig nicht unterschieden.

  Vorschlag: Aufnahme von Groß/Klein Varianten, wenn es einen
  Bedeutungsunterschied gibt, z.B. 
  
    reden (Verb)
    Reden (Mehrzahl von Rede)
    
    Blase (die Blase)
    blase (ich blase)
    
  aber nicht für reine Substantivierungen (z.B. Schreien)

  Ist das sinnvoll/gewünscht?
  
* In einigen Fällen wurde mit regexp-replace ein Teil zusammengesetzter
  Wörter gewichtet, z.B.
  
     aus·drucks·  --> aus-drucks=
     
  in 24 Wörtern, ohne Aufwand in die manuelle Wichtung des Restbestandteils
  zu stecken.
  
  Noch scheint es in der Wortliste keine Fälle von nur teilweise gewichteten
  Trennstellen in einem Wort zu geben.
  Sind solche "teilgewichteten" Einträge akzeptabel?

* Was bedeuten die Wörter "aus|bau=ei-gen" und "aus|bau=lo-kal"?
  Gibt es die wirklich oder sind das Fehleinträge?


viele Grüße

Günter  
  

-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : wortliste.diff
Dateityp    : text/x-diff
Dateigröße  : 31084 bytes
Beschreibung: nicht verfügbar
URL         : <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20120208/e4c8f981/attachment.bin>


Mehr Informationen über die Mailingliste Trennmuster