[Trennmuster] Entscheidungsmuster für Binnen- und Schluss-S in Frakturschriften
Guenter Milde
milde at users.sf.net
Di Jan 31 09:59:36 CET 2012
On 30.01.12, Werner LEMBERG wrote:
...
> > Eventuell kann die Kombination SiSiSi + Kenntnis der (ungewichteten)
> > Trennstellen helfen weitere Wörter automatisch zu wichten.
> Ich verstehe nicht wirklich, was Du damit meinst. Bitte gib ein
> Beispiel.
Ich denke, daß unklare Fälle wie:
Messer=attentat vs. Messe=ratten=tat
oder
ü_ber-wieg=en_de / ü_ber-wie-gen-de
anhand der existierenden Trennstellen gelöst werden können.
Außerdem könnte es einfacher sein, iterativ das SiSiSi-Programm über die
Trennmuster laufen zu lassen und neu gefundene Atome nachzutragen als
alle 150000 ungewichteten Wörter "per Hand" zu wichten.
> >> > Wie ist mit Trennungen nach übliche Vorsilben (aus-, bis-,
> >> > ...) zu verfahren: Haupt- oder Nebentrennstelle?
> >
> >> Ich betrachte diese Trennstellen als Haupttrennstellen.
...
> Ich ware zu salopp mit meiner Antwort: In der Wortliste gibt es
> eigentlich keine Haupt- und Nebentrennstellen, sondern nur »gute« und
> »schlechte« Trennstellen, also
> aus=ba-lan-cier-tes
> Aus=rei-se=wil-li-gen
Schade, ich dachte die Wortliste sei eine Datenbank mit objektiven
Kriterien.
Die Erklärung in "dateikopf" beschreibt es auch so:
# Ungewichtete Trennstellen (das sind solche, wo noch niemand sich um die
# Gewichtung gekümmert hat) werden durch `·' repräsentiert,
# Haupttrennstellen durch `=' und Nebentrennstellen durch `-'. Unerwünschte
# Trennstellen, wo eine Trennung sinnverwirrend ist, sind mit `.' markiert
# (Beispiel: Ur-in.stinkt).
> Theoretisch könnte man noch eine dritte Ebene einführen, nämlich
> »wirklich gute« Trennstellen:
> Aus=rei-se|wil-li-gen
> Es gibt aber viele Wörter, wo man streiten kann, wo »|« und wo »=« zu
> plazieren ist.
Eben darum fände ich eine Charakterisierung nach Morphologie
(z.B. | trennt Teilwörter, = trennt Vorsilben) deutlich besser.
Andererseits trennen in "Holz=ei-sen|bahn" sowohl die zweite als auch die
dritte Ebene Teilwörter, so daß die einfache Zuordnung
"*=" -> Vorsilbe
dann noch eine vierte Ebene (Vorzugstrennstellen in Mehrfach-Komposita)
benötigte. :-(
> > Leider sind die fehlenden Haupttrennstellen in zweisilbigen Wörtern
> > für die automatische ſ-Umstellung problematisch: Auch in
> > zweisilbigen Wörtern muß ein s=t st bleiben, aber ein s-t zu ſt
> > werden.
> Also mir wär's lieber, wenn man »s-t« und »s=t« speziell behandelt, wo
> es notwendig ist – ich denke mal, die Anzahl der zweisilbigen Wörter
> mit »s=t« ist überschaubar – und alles andere so beläßt wie es ist.
Ich finde zur Zeit ca. 48 zweisilbige Wörter mit s=t wenn ich die
"master"-Variante der Trennliste mit ";[^-=]*s=t[^-=]*$" filtere.
Wie viele noch dazukommen wenn die 19000 zweisilbigen Wörter mit s·t
gewichtet werden weiß ich nicht.
Bei s-t kann ich wahrscheinlich die unterschiedliche Schreibweise in alter
und neuer Rechtschreibung ausnutzen um Hauptrennstellen zu "rekonstruieren",
aber einfacher ist es schon, wenn man es so beläßt wie es in der "master"
Trennliste ist.
Schwieriger wird es bei s-z und s-s, wo auch die traditionelle
Rechtschreibung Nebentrennstellen (die zu ſ-z und ſ-ſ expandieren) aufweist:
s=s in 91 zweisilbigen Wörtern
s=z in 19 zweisilbigen Wörtern
Und die potentiellen Kandidaten mit ungewichteten Trennstellen:
s·s in 131 zweisilbigen Wörtern
s·z in 4 zweisilbigen Wörtern, davon 2 Haupttrennstellen.
Da fände ich eine automatische Ersetzung
"^([^-=]*)=([^-=]*)$" -> "\1-\2"
bei der Verarbeitung der Ur-Liste zu LaTeX Trennmustern einfacher. Ich
kann mich auch drein schicken und eine Liste mit Ausnahmen pflegen, falls
sich die Trennmustermanschaft für "keine Haupttrennstellen in zweisilbigen
Wörtern" entscheidet.
> > Aber es bleibt die Frage, ob untrennbare Abkürzungen und falsch
> > geschriebene Maßeinheiten (nach SI ms und nicht msec) überhaupt in
> > eine Trennmusterliste gehören.
> Ich denke schon.
Bei Abkürzungen lasse ich mich gern überstimmen.
"msec" und "nsec" sehe ich allerdings als Fehler -- selbst in einer
allgemeinen deutschen Wortliste die physikalische Einheiten aufnimmt.
Sie gehören eher in die Liste der mehr oder weniger häufigen
Falschschreibungen -- zusammen mit "email", "nähmlich" etc.
mit freundlichen Grüßen
Günter Milde
Mehr Informationen über die Mailingliste Trennmuster