[Trennmuster] Projekt Gutenberg Korpus

Stephan Hennig mailing_list at arcor.de
Do Jan 10 20:31:31 CET 2013


Am 10.01.2013 18:41, schrieb Herbert Voss:
> Am 10.01.2013 18:34, schrieb Stephan Hennig:
>>
>> Ja, es wäre aber sinnvoll, wenn die Wortliste nicht nur Häufigkeiten
>> berücksichtigt, sondern auch verschiedene Themenbereiche abdeckt, auch
>> wenn dort verwendete Wörter im allgemeinen Sprachgebrauch nur selten zu
>> finden sind.  Ich denke da zum Beispiel an die Mathematik o.ä.
> 
> Das Wort an sich ist ja uninteressant, nur die
> Buchstabenanordnung interessiert und da ist die
> Mathematik eigentlich _nicht_ interessant, da sie
> wenig Kunstwörter kennt. Ganz im Gegensatz zur Chemie.

Es gibt zwei Ursachen für Probleme bei der Worttrennung in Fachsprachen:

  * zusammengesetzte Wörter,

  * fremdsprachliche Wortteile.

Beides führt zu "ungewöhnlichen" Buchstabenketten, die zusätzliche
Muster erfordern.  Ich denke nicht, dass wir bei der Berücksichtigung
von Sprachdomänen Vorfilter einbauen sollten der Art, dass in einer
bestimmten Domäne nichts zu gewinnen wäre.

Ein Beispiel für die Bedientheorie, die ich der Mathematik zuschlagen
würde: die Muster v0.23 trennen An-kunf-tra-te.  Das ist ein Wort,
welches bei mir bereits seit vor Beginn dieses Projekts persönliche
Betreuung durch \hyphenation genießen darf.  Wenig fremd, trotzdem
falsch.  Obwohl unsere Trennmuster unbestritten weit besser sind als die
herkömmlichen.

Ein anderes Beispiel, die Ver-b-form, stammt ursprünglich von Dir, WIMRE.


> Insofern sind auch Romane aus gutenberg.org nicht
> spannend, da sie nicht sonderlich viel ungewöhnliche
> Buchstabenanordnungen aufweisen.

Wir bereiten keine speziellen Trennmuster für älteren Sprachgebrauch
(obwohl das auf Basis des Google-Book-Korpus möglich wäre, die
Jahreszahlen stehen dabei).  Daher denke ich, dass insbesondere Wörter
älterer literarischer Texte zur Wortliste hinzugefügt werden sollten.
Das hilft zwar dem Wirtschaftswissenschaftler nicht, aber vielleicht
bewahrt es ein paar Germanisten vor Peinlichkeiten.

Viele Grüße,
Stephan Hennig




Mehr Informationen über die Mailingliste Trennmuster