[Trennmuster] Entscheidungsmuster für Binnen- und Schluss-S in Frakturschriften

Werner LEMBERG wl at gnu.org
Di Jan 31 20:58:15 CET 2012


>> Ich verstehe nicht wirklich, was Du damit meinst.  Bitte gib ein
>> Beispiel.
>
> Ich denke, daß unklare Fälle wie:
>
>   Messer=attentat vs. Messe=ratten=tat

Naja, da gibt's bessere Beispiele:

  Blumento=pferde
  Alpeno=strand
  Salonal=bumserie (das ist von Karl Farkasch, einem österreichischen
                    Kabarettisten)

:-)

> oder
>
>   ü_ber-wieg=en_de / ü_ber-wie-gen-de
>
> anhand der existierenden Trennstellen gelöst werden können.

Ich verstehe immer noch nicht.  Wie sollen unklare Fälle anhand
existierender Trennstellen gelöst werden können?

> Außerdem könnte es einfacher sein, iterativ das SiSiSi-Programm über
> die Trennmuster laufen zu lassen und neu gefundene Atome
> nachzutragen als alle 150000 ungewichteten Wörter "per Hand" zu
> wichten.

Das Problem bei SiSiSi ist, daß die Wortlisten nicht gepflegt werden
und viel zu klein sind.  Als ich es 2009 auf die Liste angewandt habe,
hat es beispielsweise folgendes gefunden:

  überwiegendem;über-wie-gen-dem
  überwiegend;über-wie-gend
  überwiegen;über-wie-gen
  überwiege;über-wie-ge
  überwiegst;über-wiegst
  überwiegt;über-wiegt

die folgenden Einträge allerdings nicht:

  überwiegenden;über·wie·gen·den
  überwiegender;über·wie·gen·der
  überwiegendes;über·wie·gen·des
  Überwiegende;Über·wie·gen·de

Und Trennstellen nach Vorsilben wurden ebenfalls nicht als »gut«
markiert; das habe ich manuell nachgetragen.

>> Ich ware zu salopp mit meiner Antwort: In der Wortliste gibt es
>> eigentlich keine Haupt- und Nebentrennstellen, sondern nur »gute«
>> und »schlechte« Trennstellen, also
>
>>   aus=ba-lan-cier-tes
>>   Aus=rei-se=wil-li-gen
>
> Schade, ich dachte die Wortliste sei eine Datenbank mit objektiven
> Kriterien.

Ist sie nicht, kann sie niemals sein.  Das Format gibt das einfach
nicht her.  Wir bräuchten stattdessen ein XML-Format, vollgespickt mit
Kommentaren für alle Zweifelsfälle, wo »ästhetische« Entscheidungen
(mehr oder weniger) getroffen wurden.

> Die Erklärung in "dateikopf" beschreibt es auch so:
>
> # Ungewichtete Trennstellen (das sind solche, wo noch niemand sich
> # um die Gewichtung gekümmert hat) werden durch `·' repräsentiert,
> # Haupttrennstellen durch `=' und Nebentrennstellen durch
> # `-'. Unerwünschte Trennstellen, wo eine Trennung sinnverwirrend
> # ist, sind mit `.' markiert (Beispiel: Ur-in.stinkt).

Eigentlich sollte ich das umschreiben, ja.  Längeres Nichtarbeiten an
der Liste hat meinen Blickpunkt leicht verschoben...

> Andererseits trennen in "Holz=ei-sen|bahn" sowohl die zweite als auch die
> dritte Ebene Teilwörter, so daß die einfache Zuordnung
>
>  "*=" -> Vorsilbe
>
> dann noch eine vierte Ebene (Vorzugstrennstellen in Mehrfach-Komposita)
> benötigte. :-(

Das gibt's kein Ende, fürchte ich.

> Ich finde zur Zeit ca. 48 zweisilbige Wörter mit s=t [...]

Danke für die Analyse.

> Ich kann mich auch drein schicken und eine Liste mit Ausnahmen
> pflegen, falls sich die Trennmustermanschaft für "keine
> Haupttrennstellen in zweisilbigen Wörtern" entscheidet.

Leider kann ich mich partout nicht mehr erinnern, warum ich diesen
Zweig überhaupt in Angriff genommen habe.  Es waren bestimmt
gewichtige Gründe, aber bei mir herrscht diesbezüglich eine große
Leere im Kopf, und eine schnelle Suche in meinen E-Mails hat auch
nichts gebracht :-(


   Werner



Mehr Informationen über die Mailingliste Trennmuster