[Trennmuster] Trennstellkategorien
Guenter Milde
milde at users.sf.net
Fr Mär 16 14:09:45 CET 2012
On 16.03.12, Stephan Hennig wrote:
> Am 15.03.2012 13:57, schrieb Guenter Milde:
> > On 14.03.12, Werner LEMBERG wrote:
Liebe Trennmustler,
'|' für Präfixe
===============
...
> > Für die anvisierten Anwendungsfälle kann die Unterscheidung Präfix vs.
> > Wortfuge auch über eine Wichtung der Haupttrennstellen erfolgen:
> >
> > Be=gleit==er=schei-nung -> Be-gleit--erschei-nung
> >
> > Dabei geht allerdings die Unterscheidung verloren, ob es sich bei dem
> > Wort um ein Kompositum oder ein Derivat handelt.
> Weshalb? Weil in mehrfach zusammengesetzten Wörtern auch die
> Kompositagrenzen gewichtet werden sollen: Donau=dampf==schiff===fahrt ?
Das auch, aber nicht darum.
Beispiele für die Vorteile der 3. Kategorie "Vorsilben":
1. Unterscheidung von Komposita und Derivaten geht bei reiner "Wichtung"
verloren, es sei denn wir kennzeichnen Wortfugen generell mit
mindestens zwei '=':
Kategorisierung Wichtung
Er|schei-nung Er=schei-nung
Erz=engel Erz=engel
* Unhandlich lange Trennmuster bei nur zwei Kategorien:
Netz=aus|fall==test Netz==aus=fall===test
Holz==ei-sen=bahn Holz==ei-sen=bahn
> > Mir scheint eine separate Kategorie in der "master" Wortliste einfacher
> > zu lesen und zu pflegen und "einfach richtig".
Generell stelle ich mir die "wortliste" als eine Datenbank vor, die
durchaus mehr Information enthält als für die Silbentrennung mit patgen
gebraucht wird.
Ungünstige Trennstellen
=======================
> > * Gibt es unerwünschte Wortfugen? (Dann bräuchten wir '-.' vs. '=.'.)
> Vorstellbar ist das, da Teilwörter in Komposita unterschiedlich fest
> aneinandergefügt sind. Man könnte daher Donaudampf-schifffahrt,
> Autobahnrast-stätte oder Baum-wollplantage als leicht irreführend
> ansehen. Ich denke allerdings, dass wir diesen Fall nicht zu
> berücksichtigen brauchen. Der Aufwand wäre enorm, und der Nutzen eher
> gering. Als übermäßig nervend habe ich solche Trennungen nicht in
> Erinnerung.
Wenn ich Werner richtig verstanden habe, will er diese Fälle durch eine
Wichtung der Wortfugen lösen, also
Holz==ei-sen=bahn statt Holz=ei-sen=.bahn
Davon unabhängig könnte man natürlich irreführende Wortfugen trotzdem (ggf.
zusätzlich) markieren.
> > * Möchten wir die "Unerwünschtheit" wichten oder kategorisieren?
> Vorausgesetzt die unterschiedlichen "Unerwünschtheiten" lassen sich im
> Satzprogramm unabhängig voneinander ein- und ausschalten (und ich bin
> überzeugt davon, dass sich das auf recht einfachem Wege bewerkstelligen
> ließe), so wäre aus Nutzersicht eine Kategorisierung wahrscheinlich
> vorzuziehen.
Da die Grade der "Unerwünschtheit" orthogonal zu den morphologischen
Kategorien sind befürworte ich ein "zweidimensionales" Markierungssystem
(Kategorie-Zeichen + optionales Unterdrückungszeichen).
Eine steigende Anzahl nachgesetzter Punkte für die Grade der
Unerwünschtheit zeigt auch, daß es sich hier um eine Rangordnung (mit
teilweise nicht scharfer Abgrenzung) handelt.
Deiner nachfolgenden Unterteilung folgen wäre das dann
'.': irreführend
'..': sinnentstellend
'...': anstößig
und damit eine mögliche Matrix für ungünstige Trennstellen:
ok if se anst
normal - -. -.. -...
Vorsilbe | |. |.. |...
Wortfuge = =. =.. =...
unkategorisiert . . . .
Alternativ könnte der Unterstrich für kategorisierte ungünstige
Trennstellen verwendet werden. Das erlaubt die Kurzform '_' für den
häufigsten Fall:
ok if se anst
normal - _ -__ -___
Vorsilbe | |_ |__ |___
Wortfuge = =_ =__ =___
unkategorisiert . . . .
> > Gibt es eine scharfe, allgemein anerkannte Unterscheidung von
> > "unerwünscht", "sinnverwirrend" und "sinnentstellend" oder sind die
> > Übergänge fließend?
> > Ist eine "Nottrennstelle" (Tel-tow_er) genau definiert?
> Ja, im Leipziger Duden: K 88. (Den hast du doch, oder?)
Da steht:
In Schwankungsfällen ... ist die Trennung der Vokalgruppe nur als
Nottrennung anzusehen. Man trenne das Wort zwischen sochen Vokalen besser
nicht, sondern, wenn möglich, an anderer Stelle.
also eher eine Beschreibung für "ungünstige Trennung" denn eine Definition
einer Kategorie.
> > Sollten wir sie anders als andere zu unterdrückende Trennstellen
> > markieren (z.B. mit '_')?
> Die Nottrennungen des Leipziger Dudens betreffen eher orthographische
> als semantische Dinge (im Gegensatz zu den oben diskutierten
> irreführenden Trennungen). Von daher wäre eine Unterscheidung schon
> nicht schlecht.
Also etwas wie
'[-|=]' + '.' == verwirrend,
'_' == "ungünstig laut Duden (1971)?
Womit natürlich '_' für eine "normale ungünstige" Trennung nicht mehr zur
Verfügung steht.
> Um die Zahl der benötigten Markierungen nicht explodieren zu lassen,
> können wir aber auch zunächst analog zu · ein allgemeines Zeichen für
> unkategorisierte zu ignorierende Trennstellen verwenden. Der bereits
> verwendete Punkt . fiele mir da ein.
Dem stimme ich zu (siehe auch die "Trennzeichenmatrix" oben).
Sollen dann die Tel-tow_er zu Tel-tow.ern werden, solange bis eine Einigung
erzielt ist, oder lassen wir sie erst einmal so?
> > * Bis zu welchem Abstand von einer Haupttrennstelle wird die Trennung
> > automatisch unterdrückt?
> Idealerweise ließe sich der Abstand auf Dokumentebene steuern. Neben
> einer musterbasierten Trennung soll laut Taco in LuaTeX in Zukunft auch
> eine regelbasierte Worttrennung möglich sein. Wenn man nun nach dem
> Anwenden der Muster und dem Auffinden aller möglichen Trennstellen eines
> Wortes diese nochmals analysieren könnte und einzelne Trennstellen
> ausschließen könnte, wäre das toll. Ich weiß aber nicht, ob Taco diesen
> Anwendungsfall bisher im Blick hat.
...
> Wenn das oben erwähnte Vorgehen möglich wäre, brauchten diese Trennungen
> nicht ausdrücklich markiert zu werden, oder?
Ich denke, daß gerade wenn die Worttrennung auf Dokumentebene
konfigurierbar ist darf die "Wortliste" keine Informationen wegwerfen nur
weil sie im Standardfall nicht benötigt werden.
D.h.
* auch ungünstige Trennungen nahe einer Haupttrennstelle von "normalen"
Trennungen unterscheiden (Erst=er_werber statt Erst=er-werber) und
* Nottrennungen nicht weglassen (Tel-tow_er statt Tel-tower)
damit ein Anwendungsprogramm auf Einstellungen wie "Nottrennungen
zulassen" reagieren und bei "Mindestabstand zu Haupttrennstellen: 2"
verwirrende Trennungen ausschließen kann. Das gleiche gilt sinngemäß für
Konfigurationsparameter beim Erstellen von Trennmustern für TeX82.
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster