[Trennmuster] Wie kategorisieren?

Werner LEMBERG wl at gnu.org
Fr Jan 24 11:32:42 CET 2014


Hallo Günter!


> Beim Ziel "major" würde ich gern nur Trennstellen, die mit "="
> beginnen (also Wortfugen) berücksichtig sehen.  [...]
>
> Zusätzlich könnte ein Ziel "medium" weitere "Morphemtrennstellen"
> berücksichtigen, ...

Ja, das wäre eine sinnvolle Ergänzung im Makefile.

> ... wenn diese im hinreichenden Abstand von Wortfugen auftreten.

Nun, da gibt's zwei Ziele im Auge zu behalten:

  1. Die Systematik – besonders Du warst immer ein Verfechter dieser
     Linie, daß selbst Stellen markiert werden, die nie »schlagend«
     werden.

  2. Praktische Trennmuster.

Diese beiden Ziele sind nicht deckungsgleich.  Es hat meiner Meinung
nach durchaus Sinn, Wortteile zu kategorisieren, ohne daß das je zum
Tragen kommt, z.B. unterdrückte Trennstellen, die dann trotzdem als
Präfix markiert sind.  Auch hier könnte man evtl. spezielle
Makefile-Targets definieren.

> Einträge wie "Acht--bar-=keit" habe ich in Acht-bar-keit gewandelt.
> Möglich ist auch Acht--bar--keit, aber da keine Wortfuge vorhanden
> ist, ist das gemischte Trennzeichen hier m.E. falsch.

Hmm.  Meine Überlegung war, daß diese Wörter (außer bei
»Gerichtsbarkeit«) Substantivierungen von »-bar« sind.  Da wir ja
Suffixe auch auszeichnen wollen, sollten wir beispielsweise irgendwann

  acht--bar
  acht--ba-re

in der Liste haben.  Warum jetzt auf einmal »Acht-bar-keit«?  Bei der
Mehrzahl »Acht-bar-kei-ten« ist dann die beste Trennstelle überhaupt
nicht mehr zu erkennen.  Deine Konversion halte ich daher für eine
schlechte Idee.

Und Dein Kommentar in »README.wortliste« zu »-=« lautet:

  Das gemischte Trennzeichen »-=« kennzeichnet die
  Bindungsverhältnisse, wenn sich beispielsweise ein Suffix auf das
  gesamte vorhergehende Kompositum bezieht

Meiner Meinung nach bezieht sich bei »-barkeit« das »-keit« stets auf
das ganze Wort.  Wenn nicht mit »-=« auszeichnen, womit dann sonst?

Und was machen wir mit »Militärgerichtsbarkeit«?  Der Suffix
»-barkeit« bezieht sich auf das ganze »Militärgericht«, soweit ich das
erkennen kann, geht also über das Kompositum hinaus.

> Da der TeX-Algorithmus ja auch Wörter die nicht in der
> Musterquellliste stehen richtig trennt, wäre es sicher einen Versuch
> wert, aus den kategorisierten Einträgen einen "nur
> Wortfugen"-Mustersatz zu generieren und anschließend diese Muster
> auf die unkategorisierten Einträge (alles mit "·") anzuwenden.  Eine
> Liste dieser Wörter mit markierten Trennfugen könnte uns einen
> Riesenschritt voranbringen.

Das war von Anfang an mein Plan!  Allerdings war bisher die Wortliste
so inkonsistent, daß die Durchführung keine sinnvollen Resultate
geliefert hat.


    Werner




Mehr Informationen über die Mailingliste Trennmuster