[Trennmuster] Flatterbuchstabe
Guenter Milde
milde at users.sf.net
Di Nov 1 21:10:23 CET 2016
On 1.11.16, Werner LEMBERG wrote:
> >> * Flattervokale (genau-e-re, de-1901 und de-1996)
...
> >> * Flatterkonsonanten (Indus-t-rie, nur de-1996)
...
> > Ich plädiere für vollständige Markierung
...
> Auch OK. Allerdings bitte ich, jetzt noch keine flatterhaften
> Änderungen einzupflegen, sondern ein bißchen abzuwarten, bis das neue
> interne Format »steht«.
...
> Mit regulären Ausdrücken in Python kenne ich mich nicht so gut aus,
> aber in Perl gibt's auch »look-around assertions«, die äußerst
> hilfreich sind.
Ich habe mich auf "Posix-Regexps" beschränkt, aber auf jeden Fall
Danke für den Hinweis auf die look-ahead und -behind Muster.
Ich hänge eine Zusammenfassung meiner Vorschläge an.
Günter
Behandlung alternativer Trennungen
==================================
Einbuchstabige Silben
=====================
"Flattervokale", zulässig in de-1901 und de-1996.
In der Wortliste aus "typographischen Gründen" (zumindest bis 2016-10-31)
nur eine Trennmöglichkeit erfaßt.
Bsp.:
genau-e-re,
Vorschlag:
Beide Stellen markieren. Wenn wie bisher die Unterdrückung der ersten
Trennstelle gewünscht ist, kann dies im Extraktionsskript mit
-([aeiouäöü])- ==> \1-
erfolgen.
Ist die zweite Trennungen ungünstig, so kann sie ganz normal unterbunden
werden:
Aleuten;Ale-u..-ten
Alëuten;Alë-u-ten
Die Unterdrückung ungünstiger Trennungen muss vor der obigen Ersetzung
erfolgen:
# Entferne die ungünstigere von 2 benachbarten Trennstellen:
"-\.+([aeiouäöü])-([^.])" -> "\1-\2"
"-([^.])([aeiouäöü])-\." -> "-\1\2"
"-([aeiouäöü])-" -> "\1-"
Trennalternativen
=================
Die Reform 1996 erlaubt in einigen Fällen Trennalternativen.
Dabei sollte in einem Text konsistent eine der Alternativen verwendet
werden. Die Trennmuster bevorzugen die etymologische Trennung.
§112
In Fremdwörtern können die Verbindungen aus Buchstaben für einen
Konsonanten + l, n oder r entweder entsprechend §110 getrennt werden, oder
sie kommen ungetrennt auf die neue Zeile"
§113
Wörter, die sprachhistorische oder von der Herkunftssprache her gesehen
Zusammensetzungen oder Präfigierungen sind, aber nicht mehr als solche
empfunden oder erkannt werden kann man entweder nach § 108 oder nach § 109
bis § 112 trennen.
In Einzelfällen ist eine entsprechende Eindeutschung der Trennung schon
vor 1996 erfolgt, z.B. Hos-piz seit 1976 auch Hos-piz.
Die "naiven" Trennungen lassen sich relativ einfach finden:
Regel §113 "erzeugt" ein "-" im Abstand 1 zu "<" oder "=", z.B.
Inte-r<esse, Ex<a-men. Die Ausdrücke
"-(.)([<=]+)" ==> "\1\2"
"([<=]+)(.)-" ==> "\1\2"
müssten alle Fälle des § 113 abdecken. Ggf. sind noch Fälle von
"Konsonantensprung" mit mehrbuchstabigen Konsonanten (th, rh, sh, ch, ck) zu
berücksichtigen.
Regel §112 "erzeugt" gleichwertige Trennstellen vor/in einem
"Konsonantencluster", z.B. In<dus-t-rie, An-th-rax.
Der Ausdruck
"-([bcdfghjklmnpqrstvwxzß]h?)-([lnr])" ==> "-\1\2"
sollte alle neuzugelassenen Alternativtrennstellen ausfiltern.
Je nach Entscheid über einbuchstabige Silben können übersehene
"Flattertrennungen" mit
"-[bcdfghjklmnpqrstvwxzß]+-"
aufgefunden werden.
Mehr Informationen über die Mailingliste Trennmuster