[Trennmuster] neuer Datensatztyp: messender

Stephan Hennig sh-list at posteo.net
Sa Apr 4 14:05:09 CEST 2015


Am 31.03.2015 um 09:01 schrieb Guenter Milde:
> On 30.03.15, Stephan Hennig wrote:
>> 
>> Ich neige jedoch dazu, statt Feld 2 die Felder 3 und 4 zu belegen, da
>> Feld 2 bisher nur für die allereinfachsten Wortformen verwendet wird.
>> 
>>   messender;-2-;mes-sen-der;mes-sen-der;-5-;-6-;-7-;me[s-s/{ss/ss=s}]en-.der
> 
> Sehe ich auch so. Feld 2 nur für allgemeingültige Trennungen.

OK, ich werde diese Form bei Gelegenheit in die Wortliste aufnehmen und
während der Prüfung als zulässig betrachten.


>> Meinungen?
> 
> Für mich ist das ein weiteres Beispiel, daß in der *wortliste* (d.h. der
> Quell-Datei) die Großschreibung beachtet werden sollte, wenn damit
> Mehrdeutigkeiten vermieden werden können:
> 
>    messender;mes-sen-der
>    Messender;-2-;-3-;-4-;-5-;-6-;-7-;me[s-s/{ss/ss=s}]en-.der
> 
> Das Extraktionsskript für die patgen-Eingangsdaten müßte dann eine "Faltung"
> der Fälle vornehmen, wo Groß-/kleinschreibung zu unterschiedlicher Trennung
> führt.
> 
> Vorteile:
> 
>  * bessere Lesbarkeit der Wortliste
>  * keine Trennstellenunterdrückung in diesen Fällen, falls das
>    Anwenderprogramm Groß-/Kleinschreibung berücksichtigen kann.
> 
> Auch wenn das klassische TeX damit nichts anfangen kann, ist der
> Anwendungsbereich der Wortliste ja inzwischen größer.

Wenn man sich Mehrdeutigkeiten zuwendete, müsste das noch anders
geschehen.  In Sprachen, in denen /sämtliche/ Wörter am Satzanfang
großgeschrieben werden, wie im Deutschen, lässt sich allein aus der
Groß-/Kleinschreibung im Text keine Information zur Auflösung der
Mehrdeutigkeit entnehmen.

Zum einen könnte man versuchen, Sätze in ihre Bestandteile zu zerlegen
und diese Informationen zu nutzen (Part-of-speech-Tagging,
POS-Tagging[1]).  Allerdings stünde dem Aufwand nur ein geringer Nutzen
gegenüber.  Denn zum einen stimmen bei mehrdeutigen Wörtern die
Trennungen häufig überein, zum Beispiel bei substantivierten Verben.
Diese Fälle werden daher momentan auch gar nicht ausgezeichnet.  Zum
anderen handelt es sich bei den wenigen Fällen, in denen die Trennungen
abweichen, meistens um mehrdeutige Substantive (Druckerzeugnis,
Schiffstau), bei denen also selbst mittels POS-Tagging nichts zu holen wäre.

Alternativ könnte man eine semantische Satzanalyse bemühen, die
verschiedene Bedeutungsinterpretationen eines Satzes ermittelt und
diesen Wahrscheinlichkeiten zuordnet.  Für die automatisierte
Textanalyse mögen solche Wahrscheinlichkeiten ein hilfreiches Mittel
sein.  (Eine automatische Textinterpretation hat nicht den Zweck vom
Menschen nochmals geprüft zu werden.  Bei einem solchen Vorgang gibt der
Entscheider bereits soviel Entscheidungskompetenz ab, dass die
Richtigkeit einer einzelnen Analyse praktisch gar keine Rolle mehr
spielt.)  Aber was sagt eine Wahrscheinlichkeit von 80 Prozent über die
Trennung eines konkret vorliegenden Wortes aus?  Nichts.  Und keinen
Hauch mehr.

Ich denke, die beste Methode ist es, Mehrdeutigkeiten werden explizit
vom Autor aufgelöst.  Einen entsprechenden Hinweis werde ich in der
Dokumentation hinzufügen.

Viele Grüße,
Stephan Hennig

[1] <URL:https://de.wikipedia.org/wiki/Part-of-speech_Tagging>

> 
> Günter
> 
> 



Mehr Informationen über die Mailingliste Trennmuster