[Trennmuster] Trennstellenunterdrückung
Werner LEMBERG
wl at gnu.org
Mo Mai 14 23:03:53 CEST 2018
>> Zur Fehlersuche wäre es praktisch, gezielt die Muster
>>
>> Athe-isten
>> Ego-isten
>>
>> oder
>>
>> Athei-sten
>> Egoi-sten
>>
>> aktivieren zu können. Es sind also genau die einbuchstabigen
>> Trennstellen, zwischen denen ich wechseln möchte.
>
> Also statt der "normalen" Variante von keine_einzelvokale(), die bei
> "Unentschieden" die erste Trennung unterdrückt:
>
> re.sub(u'-[.]*([aeiouyäöü]-[^.])', u'\\1', wort)
>
> eine, die gezielt (und auch bei "punktierten" Trennungen) die erste oder
> zweite weglässt:
>
> re.sub(u'(-[.]*[aeiouyäöü]-[.]*)', u'-\\1', wort)
>
> bzw.
>
> re.sub(u'(-[.]*[aeiouyäöü]-[.]*)', u'\\1-', wort)
Das ist nicht notwendig. Was ich haben will, ist einfach die
Aktivierung der »anderen« einbuchstabigen Trennstelle.
>> Um das zu realisieren, sollte in Fällen, wo ein regulärer Ausdruck
>> nicht ausreicht, ein eigener Marker verwendet werden:
>>
>> An<woh-ner=in<.i·ti-a-ti-ve
>
> Achtung: Hier haben wir es nicht mit einem selbstdefinierten
> Trennstil zu tun, der aus ästhetischen Gründen nur eine von zwei
> gleichberechtigt zulässigen Trennstellen auswählt. [...]
Spielt keine Rolle, weil für Muster unerheblich.
Ich will »Schalter« haben:
Schalter 1: Semantische Trennungen ein/aus.
An<woh-ner=in-i-ti-a-ti-ve <--> An<woh-ner=ini-ti-a-ti-ve
Ur<in<stinkt <--> Ur<instinkt
Schalter 2: Keine einbuchstabigen Trennungen mit
bevorzugter/alternativer Unterdrückung.
An<woh-ner=ini-tia-ti-ve <--> An<woh-ner=in-iti-ati-ve
aar=gaui-schen <--> aar=gau-ischen
Schalter 3: Nur Haupttrennstellen ein/aus.
Schalter 4: Nur Suffixe ein/aus.
...
Und diese Schalter sollten möglichst unabhängig sein, also
z.B. semantische Trennung ein und alternative Trennung ein:
An<woh-ner=in<.i·ti-a-ti-ve -> An<woh-ner=initi-ati-ve
Ein solches Verfahren führt nicht immer zu regelkonformen Trennungen,
aber das ist schließlich nicht Sinn und Zweck der Übung.
>> Wir haben derzeit eine Handvoll solcher Fälle; der Aufwand wäre
>> also sehr überschaubar – wahrscheinlicher werden's ein paar mehr
>> werden.
>
> Die Kosten sind weniger im Editieraufwand als im "Verbraten" eines
> separaten Trennzeichens
Also ich denke, wir können uns ein neues Zeichen leisten :-)
> Also weiterhin der nachgestellte Punkt für "semantische"
>
> Ab<dampf=en<.er-gie
> Ju-gend=buch=au-to-.rin
> Ra-che=ter-.zett
Ja.
> *und* "phonetische"
>
> Ab<fra-ge=in-.ter<vall
> Ju-da>i-.stik
> Ra-e-.li
>
> Ungünstikeit?
Ja, weil in diesen Beispielen semantisch problematische Trennstellen
nicht mit Einbuchstaben-Trennstellen zusammenfallen. Problematisch
wären phonetische Zweibuchstaben-Trennstellen – gibt's sowas?
>> Mein Vorschlag ist »·«, das wir auch für den Fall (d) verwenden
>> könnten – wir brauchen ja keine semantisch irreführenden Trennungen
>> für Gesangstexte markieren, daher gäbe es keinen Konflikt.
>
> Ich sehe hier einen großen Konflikt: in engen Spalten können
> "irreführende" und Nottrennungen erlaubt werden, Notentexttrenner
> aber nicht.
Das wären auch »Schalter« in obigem Sinne.
>> Also patgen schafft's bis jetzt :-)
>
> Das Problem ist auch weniger, ob patgen es "schafft", als vielmehr
> wie "gut" die Trennmuster im Sinne der korrekten Behandlung nicht
> explizit trainierter Wörter sind. Die dazu nötige Generalisierung
> wird von den "semantischen Unterdrückern" doch empfindlich gestört.
Glaub ich nicht – zumindest ist mir das noch nicht konkret
aufgefallen. Es sind eher die fast unerschöpflichen Kombinationen von
Komposita, die stets neue Trennmuster bedingen.
Werner
Mehr Informationen über die Mailingliste Trennmuster