[Trennmuster] Wie kategorisieren?

Mo Jan 27 07:01:28 CET 2014

>> 2. Praktische Trennmuster
>   werden dann über Skripte aus den Daten der "wortliste" generiert.
>
>   Dabei werden aus der Auszeichnung [Kategorie (=|.), Wichtung (= ==
>   ===), Unerwünschtheit (. .. ...)] und dem Kontext (Abstand zu
>   benachbarten Trennstellen oder zum Wortrand) über noch zu
>   findende/optimierende Regeln Wichtungen der Trennstellen bestimmt
>   oder einfach eine binäre (Zulassen vs. Weglassen)
>   Trenn-Entscheidung getroffen.

Das bringt mich auf die Idee, das durch entsprechende Targets im
Makefile zu steuern, z.B.

  make category="<class>,<class>,..." \
       weighting=[0123] \
       unwanted=[0123]

mit

  class = {compound,suffix,prefix,...}

Das ist jetzt einmal ganz grob und nicht wirklich durchdacht.  Wenn
jemand das Schema präzisieren kann, werde ich das implementieren.

> So wie die Präfixe (un|ab|ding-bar), sind auch Suffixe stets von
> innen nach außen geschachtelt (Un|ab|ding--bar--keit). Somit muß die
> Wichtung nicht explizit ausgezeichnet werden
> (Un||ab|ding--bar---keit ist redundant).

Ah, OK, das hab' ich nicht bedacht.  Ist logisch.

>> Und was machen wir mit »Militärgerichtsbarkeit«?  Der Suffix
>> »-barkeit« bezieht sich auf das ganze »Militärgericht«, soweit ich
>> das erkennen kann, geht also über das Kompositum hinaus.
>
> Das ist der Anwendungsfall für "-=".

OK.

> Die "Bindigkeit" der Prä- und Suffixtrennungen würde z.B. durch "<,
> >" deutlich:
>
>    Un<an<ge<mel-det
>    Un<ab<ding>bar>keit
>    Mi-li-tär=ge<richts>=bar>keit
>
> Gegen diese Wahl spricht, daß dies eher unübliche Trennzeichen sind.

Aber mir gefällt das außerordentlich gut!  Eine geniale Idee, Günter!
Ob unüblich oder nicht, ich glaube, es ist hervorragend für die
deutsche Sprache geeignet, und auch visuell tadellos.  Ein »make dist«
kann unser internes Arbeitsformat in die von Pander entwickelte Form
leicht exportieren.

Was meinen unsere Mitstreiter?  Anstelle von >= könnte ich mir auch
explizite Klammern vorstellen:

  (Mi-li-tär=ge<richts)>bar>keit

Oder ein hypothetisches Wort:

  Nicht=(mi-li-tär=ge<richts)>bar>keit
  Nicht==mi-li-tär=ge<richts>=bar>keit

Naja.  Bitte kommentieren :-)

>> Das war von Anfang an mein Plan!  Allerdings war bisher die
>> Wortliste so inkonsistent, daß die Durchführung keine sinnvollen
>> Resultate geliefert hat.
>
> Mit einem Mustersatz für Trennungen nur an Wortfugen (=) sollte es
> inzwischen brauchbare Ergebnisse geben.  Sicherlich ist auch hier
> ein iteratives Vorgehen sinnvoll.

Ja, werde ich bei Gelegenheit testen.

    Werner

PS: Falls wir uns auf > und < einigen sollten, würden fast alle
    Einträge in der Liste verändert.  Das wäre eine hervorragende
    Gelegenheit, die »wortliste«-Datei in kleinere, besser handhabbare
    Dateien zu zerlegen, z.B. »wortliste-a«, ..., »wortliste-sch«, ...

    Oder vielleicht noch besser: Ich setze das git-Repositorium
    komplett neu auf und spiele alle bisherigen Commits nocheinmal
    ein, allerdings aufgeteilt auf kleinere Dateien.