[Trennmuster] Grundwortschatz

Werner LEMBERG wl at gnu.org
Mo Aug 12 15:34:11 CEST 2013


>> Nun, ich schätze, daß mehr als 95 Prozent der Wörter den
>> (bereinigten) Häufigkeitsklassen 1-19 der Mannheimer Liste folgen.
>> Die wenigen Wörter, die manuell ergänzt wurden, fallen da
>> eigentlich nicht ins Gewicht.  Wer also Häufigkeitsklasse 20
>> ergänzen will: Nur zu!
> 
> Bezieht sich das auf alle n-Gramme oder welche werden hier
> verwendet?

Da muß ich passen.  Soweit ich weiß, geht's um die absolute Häufigkeit
von »Wörtern« in deutschen Texten.  Hier die Häufigkeitsklassen 1-3
der Mannheimer Liste:

  der 1
  die 1
  " 1
  und 2
  - 2
  in 2
  den 2
  von 3
  zu 3
  mit 3
  das 3
  : 3
  sich 3
  ist 3
  im 3
  auf 3
  f.r 3
  des 3
  nicht 3
  Die 3
  dem 3
  ein 3
  ) 3
  ( 3

Die Einträge mußte ich noch bereinigen, wie ja offensichtlich ist.


    Werner


Mehr Informationen über die Mailingliste Trennmuster