[Trennmuster] Wie kategorisieren?
Guenter Milde
milde at users.sf.net
So Jan 26 21:58:22 CET 2014
On 24.01.14, Werner LEMBERG wrote:
Hallo Werner,
> > Beim Ziel "major" würde ich gern nur Trennstellen, die mit "="
> > beginnen (also Wortfugen) berücksichtig sehen. [...]
> >
> > Zusätzlich könnte ein Ziel "medium" weitere "Morphemtrennstellen"
> > berücksichtigen, ...
> Ja, das wäre eine sinnvolle Ergänzung im Makefile.
> > ... wenn diese im hinreichenden Abstand von Wortfugen auftreten.
> Nun, da gibt's zwei Ziele im Auge zu behalten:
...
> Diese beiden Ziele sind nicht deckungsgleich.
Aber leicht unter einen Hut zu bekommen, wenn man sinnvoll ergänzt:
> 1. Die Systematik –
ist wichtig in der Quelle/Datenbank (Datei "wortliste").
*Dort* hat es auch
> Sinn, Wortteile zu kategorisieren, ohne daß das je zum
> Tragen kommt, z.B. unterdrückte Trennstellen, die dann trotzdem als
> Präfix markiert sind.
Aber auch in der Quelldatei ist es sinnvoll, die Auszeichnung einfach zu
halten. Außerdem gibt es im Bereich natürlicher Sprachen stets
Mehrdeutigkeiten, die wir pragmatisch mit Blick auf "gute" Trennungen
auflösen sollten (practicality beats purity).
> 2. Praktische Trennmuster
werden dann über Skripte aus den Daten der "wortliste" generiert.
Dabei werden aus der Auszeichnung [Kategorie (=|.),
Wichtung (= == ===), Unerwünschtheit (. .. ...)] und dem Kontext
(Abstand zu benachbarten Trennstellen oder zum Wortrand) über noch zu
findende/optimierende Regeln Wichtungen der Trennstellen bestimmt oder
einfach eine binäre (Zulassen vs. Weglassen) Trenn-Entscheidung getroffen.
Die so vorverarbeiteten Einträge können dann als Eingabemuster für
Patgen dienen oder als Basis eines alternativen Trennsystems.
Aus den gleichen Ausgangsdaten ("wortliste") lassen sich so über
unterschiedliche Regeln/Skripte an den jeweiligen Verwendungszweck
angepaßte praktische Trennmuster erstellen.
> > Einträge wie "Acht--bar-=keit" habe ich in Acht-bar-keit gewandelt.
> > Möglich ist auch Acht--bar--keit, aber da keine Wortfuge vorhanden
> > ist, ist das gemischte Trennzeichen hier m.E. falsch.
> Hmm. Meine Überlegung war, daß diese Wörter (außer bei
> »Gerichtsbarkeit«) Substantivierungen von »-bar« sind. Da wir ja
> Suffixe auch auszeichnen wollen, sollten wir beispielsweise irgendwann
> acht--bar
> acht--ba-re
> in der Liste haben. Warum jetzt auf einmal »Acht-bar-keit«?
Weil die Suffixauszeichnung optional ist. Wenn acht--bar, dann auch
Acht--bar--kei-ten.
> Und Dein Kommentar in »README.wortliste« zu »-=« lautet:
> Das gemischte Trennzeichen »-=« kennzeichnet die
> Bindungsverhältnisse, wenn sich beispielsweise ein Suffix auf das
> gesamte vorhergehende Kompositum bezieht
> Meiner Meinung nach bezieht sich bei »-barkeit« das »-keit« stets auf
> das ganze Wort. Wenn nicht mit »-=« auszeichnen, womit dann sonst?
Im Gegensatz zur »Militär=gerichts-=bar--keit« ist Achtbarkeit aber kein
Kompositum (keine Wortfuge "=").
So wie die Präfixe (un|ab|ding-bar), sind auch Suffixe stets von innen
nach außen geschachtelt (Un|ab|ding--bar--keit). Somit muß die Wichtung
nicht explizit ausgezeichnet werden (Un||ab|ding--bar---keit ist redundant).
> Und was machen wir mit »Militärgerichtsbarkeit«? Der Suffix
> »-barkeit« bezieht sich auf das ganze »Militärgericht«, soweit ich das
> erkennen kann, geht also über das Kompositum hinaus.
Das ist der Anwendungsfall für "-=".
Wenn wir konsequent Suffixgrenzen auszeichnen wollen (wo sie mit
Silbengrenzen übereinstimmen), sollten wir auch über ein spezifisches
Trennzeichen nachdenken.
Die "Bindigkeit" der Prä- und Suffixtrennungen würde z.B. durch "<, >"
deutlich:
Un<an<ge<mel-det
Un<ab<ding>bar>keit
Mi-li-tär=ge<richts>=bar>keit
Gegen diese Wahl spricht, daß dies eher unübliche Trennzeichen sind.
=======================================
> > Da der TeX-Algorithmus ja auch Wörter die nicht in der
> > Musterquellliste stehen richtig trennt, wäre es sicher einen Versuch
> > wert, aus den kategorisierten Einträgen einen "nur
> > Wortfugen"-Mustersatz zu generieren und anschließend diese Muster
> > auf die unkategorisierten Einträge (alles mit "·") anzuwenden. Eine
> > Liste dieser Wörter mit markierten Trennfugen könnte uns einen
> > Riesenschritt voranbringen.
> Das war von Anfang an mein Plan! Allerdings war bisher die Wortliste
> so inkonsistent, daß die Durchführung keine sinnvollen Resultate
> geliefert hat.
Mit einem Mustersatz für Trennungen nur an Wortfugen (=) sollte es
inzwischen brauchbare Ergebnisse geben. Sicherlich ist auch hier ein
iteratives Vorgehen sinnvoll.
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster