[Trennmuster] Trennstellkategorien

Mi Mär 21 18:16:50 CET 2012

On 2012-03-16 14:09, Guenter Milde wrote:
> On 16.03.12, Stephan Hennig wrote:
>> Am 15.03.2012 13:57, schrieb Guenter Milde:
>>> On 14.03.12, Werner LEMBERG wrote:
> 
> Liebe Trennmustler,
> 
> 
> '|' für Präfixe
> ===============
> 
> ...
> 
>>> Für die anvisierten Anwendungsfälle kann die Unterscheidung Präfix vs.
>>> Wortfuge auch über eine Wichtung der Haupttrennstellen erfolgen:
>>>
>>>   Be=gleit==er=schei-nung  -> Be-gleit--erschei-nung
>>>
>>> Dabei geht allerdings die Unterscheidung verloren, ob es sich bei dem
>>> Wort um ein Kompositum oder ein Derivat handelt.
> 
>> Weshalb? Weil in mehrfach zusammengesetzten Wörtern auch die
>> Kompositagrenzen gewichtet werden sollen:  Donau=dampf==schiff===fahrt ?
> 
> Das auch, aber nicht darum.
> 
> Beispiele für die Vorteile der 3. Kategorie "Vorsilben":
> 
> 1. Unterscheidung von Komposita und Derivaten geht bei reiner "Wichtung"
>    verloren, es sei denn wir kennzeichnen Wortfugen generell mit
>    mindestens zwei '=':
> 
>     Kategorisierung          Wichtung
> 
>     Er|schei-nung            Er=schei-nung
>     Erz=engel                Erz=engel
> 
> * Unhandlich lange Trennmuster bei nur zwei Kategorien:
> 
>     Netz=aus|fall==test      Netz==aus=fall===test
>     Holz==ei-sen=bahn         Holz==ei-sen=bahn
> 
>>> Mir scheint eine separate Kategorie in der "master" Wortliste einfacher
>>> zu lesen und zu pflegen und "einfach richtig".
> 
> Generell stelle ich mir die "wortliste" als eine Datenbank vor, die
> durchaus mehr Information enthält als für die Silbentrennung mit patgen
> gebraucht wird.
> 
> 
> Ungünstige Trennstellen
> =======================
> 
>>> * Gibt es unerwünschte Wortfugen? (Dann bräuchten wir '-.' vs. '=.'.)
> 
>> Vorstellbar ist das, da Teilwörter in Komposita unterschiedlich fest
>> aneinandergefügt sind.  Man könnte daher Donaudampf-schifffahrt,
>> Autobahnrast-stätte oder Baum-wollplantage als leicht irreführend
>> ansehen.  Ich denke allerdings, dass wir diesen Fall nicht zu
>> berücksichtigen brauchen.  Der Aufwand wäre enorm, und der Nutzen eher
>> gering.  Als übermäßig nervend habe ich solche Trennungen nicht in
>> Erinnerung.
> 
> Wenn ich Werner richtig verstanden habe, will er diese Fälle durch eine
> Wichtung der Wortfugen lösen, also
> 
>     Holz==ei-sen=bahn   statt      Holz=ei-sen=.bahn
> 
> Davon unabhängig könnte man natürlich irreführende Wortfugen trotzdem (ggf.
> zusätzlich) markieren.
> 
> 
>>> * Möchten wir die "Unerwünschtheit" wichten oder kategorisieren?
> 
>> Vorausgesetzt die unterschiedlichen "Unerwünschtheiten" lassen sich im
>> Satzprogramm unabhängig voneinander ein- und ausschalten (und ich bin
>> überzeugt davon, dass sich das auf recht einfachem Wege bewerkstelligen
>> ließe), so wäre aus Nutzersicht eine Kategorisierung wahrscheinlich
>> vorzuziehen.
> 
> Da die Grade der "Unerwünschtheit" orthogonal zu den morphologischen
> Kategorien sind befürworte ich ein "zweidimensionales" Markierungssystem
> (Kategorie-Zeichen + optionales Unterdrückungszeichen).
> 
> Eine steigende Anzahl nachgesetzter Punkte für die Grade der
> Unerwünschtheit zeigt auch, daß es sich hier um eine Rangordnung (mit
> teilweise nicht scharfer Abgrenzung) handelt.
> 
> Deiner nachfolgenden Unterteilung folgen wäre das dann
> 
> '.':    irreführend
> '..':   sinnentstellend
> '...':  anstößig
> 
> und damit eine mögliche Matrix für ungünstige Trennstellen:
> 
>                 ok  if   se    anst
> normal          -   -.   -..   -...
> Vorsilbe        |   |.   |..   |...
> Wortfuge        =   =.   =..   =...
> unkategorisiert .   .    .     .
> 
> Alternativ könnte der Unterstrich für kategorisierte ungünstige
> Trennstellen verwendet werden. Das erlaubt die Kurzform '_' für den
> häufigsten Fall:
> 
>                 ok  if   se    anst
> normal          -   _    -__   -___
> Vorsilbe        |   |_   |__   |___
> Wortfuge        =   =_   =__   =___
> unkategorisiert .   .    .     .
> 
> 
>>>   Gibt es eine scharfe, allgemein anerkannte Unterscheidung von
>>>   "unerwünscht", "sinnverwirrend" und "sinnentstellend" oder sind die
>>>   Übergänge fließend?
> 
>>>   Ist eine "Nottrennstelle" (Tel-tow_er) genau definiert?
> 
>> Ja, im Leipziger Duden: K 88.  (Den hast du doch, oder?)  
> 
> Da steht:
> 
>   In Schwankungsfällen ... ist die Trennung der Vokalgruppe nur als
>   Nottrennung anzusehen. Man trenne das Wort zwischen sochen Vokalen besser
>   nicht, sondern, wenn möglich, an anderer Stelle.
> 
> also eher eine Beschreibung für "ungünstige Trennung" denn eine Definition
> einer Kategorie.
> 
>>>   Sollten wir sie anders als andere zu unterdrückende Trennstellen
>>>   markieren (z.B. mit '_')?
> 
>> Die Nottrennungen des Leipziger Dudens betreffen eher orthographische
>> als semantische Dinge (im Gegensatz zu den oben diskutierten
>> irreführenden Trennungen).  Von daher wäre eine Unterscheidung schon
>> nicht schlecht.
> 
> Also etwas wie 
>  '[-|=]' + '.' == verwirrend, 
>  '_' 	       == "ungünstig laut Duden (1971)?
> 
> Womit natürlich '_' für eine "normale ungünstige" Trennung nicht mehr zur
> Verfügung steht.
> 
>> Um die Zahl der benötigten Markierungen nicht explodieren zu lassen,
>> können wir aber auch zunächst analog zu · ein allgemeines Zeichen für
>> unkategorisierte zu ignorierende Trennstellen verwenden.  Der bereits
>> verwendete Punkt . fiele mir da ein.
> 
> Dem stimme ich zu (siehe auch die "Trennzeichenmatrix" oben).
> 
> Sollen dann die Tel-tow_er zu Tel-tow.ern werden, solange bis eine Einigung
> erzielt ist, oder lassen wir sie erst einmal so?
> 
> 
>>> * Bis zu welchem Abstand von einer Haupttrennstelle wird die Trennung
>>>   automatisch unterdrückt?
> 
>> Idealerweise ließe sich der Abstand auf Dokumentebene steuern.  Neben
>> einer musterbasierten Trennung soll laut Taco in LuaTeX in Zukunft auch
>> eine regelbasierte Worttrennung möglich sein.  Wenn man nun nach dem
>> Anwenden der Muster und dem Auffinden aller möglichen Trennstellen eines
>> Wortes diese nochmals analysieren könnte und einzelne Trennstellen
>> ausschließen könnte, wäre das toll.  Ich weiß aber nicht, ob Taco diesen
>> Anwendungsfall bisher im Blick hat.
> 
> ...
> 
>> Wenn das oben erwähnte Vorgehen möglich wäre, brauchten diese Trennungen
>> nicht ausdrücklich markiert zu werden, oder?
> 
> Ich denke, daß gerade wenn die Worttrennung auf Dokumentebene
> konfigurierbar ist darf die "Wortliste" keine Informationen wegwerfen nur
> weil sie im Standardfall nicht benötigt werden. 
> 
> D.h. 
> 
> * auch ungünstige Trennungen nahe einer Haupttrennstelle von "normalen"
>   Trennungen unterscheiden (Erst=er_werber statt Erst=er-werber) und
> 
> * Nottrennungen nicht weglassen (Tel-tow_er statt Tel-tower)
> 
> damit ein Anwendungsprogramm auf Einstellungen wie "Nottrennungen
> zulassen" reagieren und bei "Mindestabstand zu Haupttrennstellen: 2"
> verwirrende Trennungen ausschließen kann. Das gleiche gilt sinngemäß für
> Konfigurationsparameter beim Erstellen von Trennmustern für TeX82.
> 
> 
> Viele Grüße
> 
> Günter

I can speak and read German but my writing skills are not so good.
Therefore I will reply in English if you don't mind.

So in general - is used for hyphenation within stems or word, and = is
used for hyphenation between stems and words in compounds. If this is
true, that would be very good for the current set of Dutch hyphenation
patterns because for review purposes we would like to be able to look up
individual words that make up a compound.

Aditionally we will add some <a|b> before the = the assist looking up
stems when they are conjugated. There only a will be used and < and |b>
can be discareded. This might even remove the need of a two-stage format.

As discussed with Werner, for now, we will use ~ for hyphens that are
always available in words (hyphenated or not). However, this is not
always the preferred place for hyphenation.

What would you recommend to indicate that hyphenation on = is in the
following example preferred over hyphenation of ~

  signaal-ruisverhouding;sig-naal~ruis=ver-.houd-ing

Simply by the order of:
  1: =
  2: ~
  3: -
  4: -.

I have also updated the draft RFC here
  https://github.com/PanderMusubi/hyphenation-patterns

Please watch it via github and let me know if you would like to have
write rights to contribute or correct text and examples.

Viele Grüße,

Pander

> _______________________________________________
> Trennmuster mailing list
> Trennmuster at dante.de
> https://lists.dante.de/mailman/listinfo/trennmuster