[Trennmuster] Wichtung von Woertern in Patgen (was: Woerter mit zwei und drei Buchstaben)

Stephan Hennig mailing_list at arcor.de
Do Jul 31 21:41:22 CEST 2014


Am 31.07.2014 14:14, schrieb Guenter Milde:
> On 30.07.14, Stephan Hennig wrote:
>
>> Kandidaten für geänderte Gewichte wären:
> 
>>   * Abkürzungen,
>>   * Namen,
>>   * allgemein Wörter mit unterdrückten Trennstellen, wie:
>>       + mehrdeutige Wörter,
>>       + sinnentstellende und irreführende Wörter,
>>       + Wörter mit Dreikonsonantenregel,
>>   * eventuell knifflige Wörter (?),
>>   * ...
> 
>> Für solche Experimente ist aber eine per Skript zu verarbeitende
>> Auszeichnung der entsprechenden Wörter in der Wortliste notwendig.
> 
> Für eine erste Approximation reicht wahrscheinlich sogar schon ein Test
> auf Vorhandensein eines Kommentars aus:

Und auf . und [/] und {/}.

Versalschreibungen in der traditionellen Rechtschreibung könnte man auch
abwerten, da die Trennungen -ss und ss- nicht "normal" sind.


>> Die Hoffnung ist, dass sich durch Abwertung von Wörtern, die die
>> Strukturen der Wörter der deutschen Sprache brechen, in irgend einer
>> Form die Qualität der Muster verbessern ließe. In welcher Art genau,
>> dass ist die Frage. Denn: Wie lässt sich die Qualität von Mustersätzen
>> beschreiben? 
> 
> =====================================================================
> Die im Endeffekt wichtigste Eigenschaft ist die korrekte Trennung von
> möglichst vielen in der Liste nicht erfaßten Wörtern und Verbindungen!
> =====================================================================
> 
> Wie man diese Größe messen kann ist mir (abgesehen von Tests mit einem
> umfangreicheren Korpus als unserer Trennliste) leider nicht bekannt.

Selbst ein solcher Test ist nicht ohne weiteres aussagekräftig.  Wenn
die konventionellen Muster eine irreführende Trennung zulassen, mit
unseren Mustern eine solche Trennung aber verhindert wird, welche Muster
sind dann besser?  Für einen Test müssten die stilistischen Vorgaben in
den Mustern ebenfalls vergleichbar sein.  Das heißt, für einen Vergleich
mit den konventionellen Mustern müssten wir alle Trennungen in unseren
Mustern zulassen.  Der Vergleich sagt dann etwas über Muster aus, die
wir gar nicht veröffentlichen.  Hmm.

Viele Grüße,
Stephan Hennig




Mehr Informationen über die Mailingliste Trennmuster