[Trennmuster] Dokumentation
Guenter Milde
milde at users.sf.net
Fr Aug 30 10:17:42 CEST 2013
On 29.08.13, Werner LEMBERG wrote:
> > Ich gebe zu, dass ich die Unterscheidung angekurbelt habe, aber nur
> > weil die Dokumentation ja nicht mit der Liste synchron lief (selbst
> > nicht in den Beispielen). Reicht nicht vielleicht eine
> > Untertrennung, nach dem Beispiel "unschön"?
> Nun ja: alles mit einem oder mehreren Punkten ist automatisch
> »unschön«. Wem das genügt, der kann ja die Liste leicht entsprechend
> filtern.
Ich denke auch, daß eine Unterscheidung in "Nottrennstellen", die bei
engen Spalten durchaus akzeptabel sein können, und selbst in "Notfällen"
zu vermeidenden Trennstellen sinnvoll ist.
> >> Wie schon im anderen Post erwähnt: ich finde diese Zuordnung
> >> problematisch, da sie der Logik: »Anzahl der Zeichen entspricht
> >> "Stärke"« widerspricht.
...
> > Vielleicht nach Priorität durchnummeriert?
Das würde auch nichts daran ändern, daß der von mir kritisierte Vorschlag
zur Kennzeichnung ungünstiger Trennstellen die Verdoppelung zur
*Kategorisierung* verwendet und dabei die Zuordnung
mehr Punkte --> ungünstiger
nicht gilt.
Die Frage ist:
Wollen wir eine explizite Auszeichnung ungünstiger Trennstellen nach
Kategorien (anstelle einer Wichtung)?
Wenn ja, welche (Beispiele aus der aktuellen Wortliste):
* von uns abgelehnte Trennungen der 2006-er Orthographie: Tel-to.wer
* in anderen Quellen als "Nottrennung" geführte Trennungen
* fehlleitende Trennungen:
- anstößig: Ur-in.stinkt
- andere Form des beabsichtigten Wortstammes: An·woh·ner·in.itia·ti·ve
- anderer Wortstamm:
· beider Teile existieren: be·in.hal·tend
· nur erster Teil existiert: Text·il.lus·tra·tio·nen
· kein Teil existiert¹: Süd·see·in.seln
* (noch) nicht kategorisiert: Ur-in.stinkt
Wenn eine *Kategorisierung* gewünscht ist, sollte dies meines Erachtens nach
über unterschiedliche Trennzeichen erfolgen.
Für eine *Wichtung* reicht ein Trennzeichen mit optionaler Wiederholung.
Die Dokumentation sollte dann eine Zuordnung der Kategorien zu den
Wichtungsstufen vorschlagen/vorgeben.
Eine Doppeldeutung des einfachen Punktes ».« als
- (noch) nicht gewichtet bzw.
- 1. Stufe der Wichtung
läßt sich vermeiden, wenn wir die ca. 1500 (aus 400000) existierenden
Einträge mit Punkt "in einem Abwasch" wichten (bzw. wenn gewünscht
kategorisieren). Ein Großteil der Einträge kann über reguläre Ausdrücke
erfaßt werden, was die Arbeit deutlich vereinfacht.
¹Die Kennzeichnung ungünstiger Trennstellen in der Nähe von
Haupttrennstellen wenn die alternative Lesart invalide ist (z.B.
Südseein-, Selbsthilfein-, Reisein-) sollte im Rahmen der Kategorisierung
zugunsten einer allgemeinen Unterdrückung bei Abstand < 2 entfallen:
Süd·see·in.seln --> Süd=see==in-seln
Im Unterschied dazu würde ich die Kennzeichnung beibehalten, wenn eine
irreführende Deutung des ersten Wortteils möglich ist, z.B.
Text·il.lus·tra·tio·nen --> Text=il-.lus-tra-tio-nen
Dann kann ein künftiger "Nottrennalgorithmus" zwischen diesen beiden Fällen
unterscheiden.
viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster