[Trennmuster] Trennstellenunterdrückung

Werner LEMBERG wl at gnu.org
Mo Mai 14 23:03:53 CEST 2018


>> Zur Fehlersuche wäre es praktisch, gezielt die Muster
>>
>>   Athe-isten
>>   Ego-isten
>>
>> oder
>>
>>   Athei-sten
>>   Egoi-sten
>>
>> aktivieren zu können.  Es sind also genau die einbuchstabigen
>> Trennstellen, zwischen denen ich wechseln möchte.
>
> Also statt der "normalen" Variante von keine_einzelvokale(), die bei
> "Unentschieden" die erste Trennung unterdrückt:
>
>   re.sub(u'-[.]*([aeiouyäöü]-[^.])', u'\\1', wort)
>
> eine, die gezielt (und auch bei "punktierten" Trennungen) die erste oder
> zweite weglässt:
>
>   re.sub(u'(-[.]*[aeiouyäöü]-[.]*)', u'-\\1', wort)
>
> bzw.
>
>   re.sub(u'(-[.]*[aeiouyäöü]-[.]*)', u'\\1-', wort)

Das ist nicht notwendig.  Was ich haben will, ist einfach die
Aktivierung der »anderen« einbuchstabigen Trennstelle.

>> Um das zu realisieren, sollte in Fällen, wo ein regulärer Ausdruck
>> nicht ausreicht, ein eigener Marker verwendet werden:
>>
>>   An<woh-ner=in<.i·ti-a-ti-ve
>
> Achtung: Hier haben wir es nicht mit einem selbstdefinierten
> Trennstil zu tun, der aus ästhetischen Gründen nur eine von zwei
> gleichberechtigt zulässigen Trennstellen auswählt.  [...]

Spielt keine Rolle, weil für Muster unerheblich.

Ich will »Schalter« haben:

Schalter 1: Semantische Trennungen ein/aus.

  An<woh-ner=in-i-ti-a-ti-ve  <-->  An<woh-ner=ini-ti-a-ti-ve
  Ur<in<stinkt                <-->  Ur<instinkt

Schalter 2: Keine einbuchstabigen Trennungen mit
            bevorzugter/alternativer Unterdrückung.

  An<woh-ner=ini-tia-ti-ve  <-->  An<woh-ner=in-iti-ati-ve
  aar=gaui-schen            <-->  aar=gau-ischen

Schalter 3: Nur Haupttrennstellen ein/aus.

Schalter 4: Nur Suffixe ein/aus.

...

Und diese Schalter sollten möglichst unabhängig sein, also
z.B. semantische Trennung ein und alternative Trennung ein:

  An<woh-ner=in<.i·ti-a-ti-ve  ->  An<woh-ner=initi-ati-ve

Ein solches Verfahren führt nicht immer zu regelkonformen Trennungen,
aber das ist schließlich nicht Sinn und Zweck der Übung.

>> Wir haben derzeit eine Handvoll solcher Fälle; der Aufwand wäre
>> also sehr überschaubar – wahrscheinlicher werden's ein paar mehr
>> werden.
>
> Die Kosten sind weniger im Editieraufwand als im "Verbraten" eines
> separaten Trennzeichens

Also ich denke, wir können uns ein neues Zeichen leisten :-)

> Also weiterhin der nachgestellte Punkt für "semantische"
>
>   Ab<dampf=en<.er-gie
>   Ju-gend=buch=au-to-.rin
>   Ra-che=ter-.zett

Ja.

> *und* "phonetische"
>
>   Ab<fra-ge=in-.ter<vall
>   Ju-da>i-.stik
>   Ra-e-.li
>
> Ungünstikeit?

Ja, weil in diesen Beispielen semantisch problematische Trennstellen
nicht mit Einbuchstaben-Trennstellen zusammenfallen.  Problematisch
wären phonetische Zweibuchstaben-Trennstellen – gibt's sowas?

>> Mein Vorschlag ist »·«, das wir auch für den Fall (d) verwenden
>> könnten – wir brauchen ja keine semantisch irreführenden Trennungen
>> für Gesangstexte markieren, daher gäbe es keinen Konflikt.
>
> Ich sehe hier einen großen Konflikt: in engen Spalten können
> "irreführende" und Nottrennungen erlaubt werden, Notentexttrenner
> aber nicht.

Das wären auch »Schalter« in obigem Sinne.

>> Also patgen schafft's bis jetzt :-)
>
> Das Problem ist auch weniger, ob patgen es "schafft", als vielmehr
> wie "gut" die Trennmuster im Sinne der korrekten Behandlung nicht
> explizit trainierter Wörter sind.  Die dazu nötige Generalisierung
> wird von den "semantischen Unterdrückern" doch empfindlich gestört.

Glaub ich nicht – zumindest ist mir das noch nicht konkret
aufgefallen.  Es sind eher die fast unerschöpflichen Kombinationen von
Komposita, die stets neue Trennmuster bedingen.


    Werner




Mehr Informationen über die Mailingliste Trennmuster