[Trennmuster] Dokumentation

Guenter Milde milde at users.sf.net
Fr Aug 30 10:17:42 CEST 2013


On 29.08.13, Werner LEMBERG wrote:

> > Ich gebe zu, dass ich die Unterscheidung angekurbelt habe, aber nur
> > weil die Dokumentation ja nicht mit der Liste synchron lief (selbst
> > nicht in den Beispielen). Reicht nicht vielleicht eine
> > Untertrennung, nach dem Beispiel "unschön"?

> Nun ja: alles mit einem oder mehreren Punkten ist automatisch
> »unschön«.  Wem das genügt, der kann ja die Liste leicht entsprechend
> filtern.

Ich denke auch, daß eine Unterscheidung in "Nottrennstellen", die bei
engen Spalten durchaus akzeptabel sein können, und selbst in "Notfällen"
zu vermeidenden Trennstellen sinnvoll ist.

> >> Wie schon im anderen Post erwähnt: ich finde diese Zuordnung
> >> problematisch, da sie der Logik: »Anzahl der Zeichen entspricht
> >> "Stärke"« widerspricht.

...

> > Vielleicht nach Priorität durchnummeriert?

Das würde auch nichts daran ändern, daß der von mir kritisierte Vorschlag
zur Kennzeichnung ungünstiger Trennstellen die Verdoppelung zur
*Kategorisierung* verwendet und dabei die Zuordnung

  mehr Punkte --> ungünstiger

nicht gilt.

Die Frage ist:

Wollen wir eine explizite Auszeichnung ungünstiger Trennstellen nach
Kategorien (anstelle einer Wichtung)?

Wenn ja, welche (Beispiele aus der aktuellen Wortliste):

* von uns abgelehnte Trennungen der 2006-er Orthographie: Tel-to.wer

* in anderen Quellen als "Nottrennung" geführte Trennungen

* fehlleitende Trennungen:

  - anstößig:                                    Ur-in.stinkt

  - andere Form des beabsichtigten Wortstammes:  An·woh·ner·in.itia·ti·ve

  - anderer Wortstamm:

    · beider Teile existieren:                   be·in.hal·tend

    · nur erster Teil existiert:		 Text·il.lus·tra·tio·nen

    · kein Teil existiert¹:                      Süd·see·in.seln

* (noch) nicht kategorisiert:			 Ur-in.stinkt


Wenn eine *Kategorisierung* gewünscht ist, sollte dies meines Erachtens nach
über unterschiedliche Trennzeichen erfolgen.

Für eine *Wichtung* reicht ein Trennzeichen mit optionaler Wiederholung.
Die Dokumentation sollte dann eine Zuordnung der Kategorien zu den
Wichtungsstufen vorschlagen/vorgeben.


Eine Doppeldeutung des einfachen Punktes ».« als

  - (noch) nicht gewichtet bzw.
  - 1. Stufe der Wichtung
  
läßt sich vermeiden, wenn wir die ca. 1500 (aus 400000) existierenden
Einträge mit Punkt "in einem Abwasch" wichten (bzw. wenn gewünscht
kategorisieren). Ein Großteil der Einträge kann über reguläre Ausdrücke
erfaßt werden, was die Arbeit deutlich vereinfacht.


¹Die Kennzeichnung ungünstiger Trennstellen in der Nähe von
 Haupttrennstellen wenn die alternative Lesart invalide ist (z.B.
 Südseein-, Selbsthilfein-, Reisein-) sollte im Rahmen der Kategorisierung
 zugunsten einer allgemeinen Unterdrückung bei Abstand < 2 entfallen:

   Süd·see·in.seln  -->  Süd=see==in-seln
   
 Im Unterschied dazu würde ich die Kennzeichnung beibehalten, wenn eine
 irreführende Deutung des ersten Wortteils möglich ist, z.B.
 
   Text·il.lus·tra·tio·nen  -->  Text=il-.lus-tra-tio-nen
   
 Dann kann ein künftiger "Nottrennalgorithmus" zwischen diesen beiden Fällen
 unterscheiden.


viele Grüße

Günter



Mehr Informationen über die Mailingliste Trennmuster