[Trennmuster] Problem mit Ein-Buchstaben-Trennungen
Guenter Milde
milde at users.sf.net
Mo Jan 25 11:46:14 CET 2021
On 23.01.21, Werner LEMBERG wrote:
> > Ich bin gerade dabei, mein »extract-tex.pl«-Skript zu aktualisieren,
> > da geb' ich die Beschreibung einmal hinein. Später kann man das
> > woanders unterbringen.
> Mein Skript liefert jetzt wieder identische Resultate zu Günters
> Implementierung :-) Während der Implementation haben sich noch
> kleinere Korrekturen in der Beschreibung ergeben; hier ist jetzt die
> aktualisierte Version.
Ich gehe jetzt mal davon aus, dass es sich hier um die Beschreibung der
speziellen Implementation in extract-tex.pl handelt. (Für eine generische
Beschreibung wie aus der Auszeichnugn der Liste ein patgen-tauglicher
Eingangsmustersatz gewonnen werden kann wären einige Verallgemeinerungen
nötig.)
> (1) Auflösung von Wahlmöglichkeiten zwischen morphemischem und
> syllabischem Trennstil (einer der beiden Stile muß gewählt
> werden).
Zumindest bei allen von uns (gegenwärtig) generierten Trennstilen. Wenn
ein Trennstil zur Fehlermarkierung in Aufsätzen gebraucht ist, würden
alle Wahltrennungen bleiben (da Trennungen an diesen Stellen ja keine
Regelverletzungen sind).
Falls das Skript das zulässt und immer noch funktioniert, kann die
Klammer samt Inhalt weg.
> Ungünstigkeitsmarker und Gesangstrennstellen
> werden in diesem Schritt nicht berücksichtigt (wohl aber
> entfernt, wenn die entsprechende Trennstelle entfällt).
> (a) Die Bezeichnungen
> <x- und -x<
> sind Kurzschreibungen für
> {<x/x-} und {x</-x} (morphemisch/syllabisch) ,
> wobei »x« ein Konsonant oder »ch« ist. Diese Regel gilt
- weder für die Suffixe »>x-« und »-x>«
- noch für die Zusammensetzungen »=x-« und »-x=«.
+ nicht für die Suffixe »>x-« und »-x>«.
+ Die Zusammensetzungen »=x-« und »-x=« werden gegenwärtig
+ nicht beachtet, da sie in der Wortliste nicht vorkommen.
Wie schon Keno schrieb, ist hier die Unterscheidung zwischen "gilt gemäß
der Regel nicht für Suffixe" zu "haben wir bisher noch nicht in der
Liste" wichtig.
Gegenbeispiel: Lö-b=au
> (b) Die Bezeichnungen
> <i- und -i<
> sind Kurzschreibungen für
> {<i·/i-} und {·i</-i} (morphemisch/syllabisch) ,
> wobei »i« ein Vokal ist (einschließlich »y«). Diese
- Regel gilt weder für die Suffixe »>i-« und »-i>« noch
- für die Zusammensetzungen »=i-« und »-i=«.
+ Regel gilt nicht für die Suffixe »>i-« und »-i>«.
+ Die Zusammensetzungen »=i-« und »-i=« werden gegenwärtig
+ nicht beachtet, da sie in der Wortliste nicht vorkommen.
Gegenbeispiel: Ei-se-n=a-ch-er Motorenwerke
> Beispielsweise bleibt die Markierung
> al-ge-bra>i-sche
> in diesem Schritt unverändert; wegen »>« gibt es keine
> Wahlmöglichkeit.
> (2) Behandle (angehängte) ».«-Marker, falls ungünstige
> Trennstellen unterdrückt werden sollen.
> (3) Entferne Flattervokale (also Einbuchstaben-Silben), falls
> verlangt. Beachte, daß »ch« wie ein Buchstabe behandelt
> wird und auch Schwankungsfälle berücksichtigt werden.
> Gesangstrennstellen dagegen werden ignoriert (aber
> gegebenenfalls entfernt).
> (a) Ist eine Trennstelle »stärker« als die andere, wird die
> stärkere Trennstelle genommen (z.B. ist »>« stärker als
> »-«, »-« stärker als ».«).
> (b) Sind die Trennstellen gleich stark, wird die rechte
> Trennstelle genommen.
> (4) Entferne Gesangstrennstellen, falls verlangt. Beachte, daß
> die Markierung für Gesangstrennstellen, ähnlich zu
> Ungünstigkeitsmarkern, auch zu anderen Markern treten kann
> (die dann ebenfalls entfernt werden).
> (5) Entferne restliche Schwankungsfälle, falls verlangt.
> (6) Alle verbliebenen Markierungen werden zu »-« aufgelöst.
> Beispiele:
> Re<s-tau-rant
> Re<stau-rant (1a, morphemisch)
> Re-stau-rant (6)
> Re<s-tau-rant
> Res-tau-rant (1a, syllabisch)
> Ge-r<i.a-trie
> Ger<i.a-trie (1a, morphemisch)
> Ger<ia-trie (3)
> Ger-ia-trie (6)
> Ge-r<i.a-trie
> Ge-ri.a-trie (1a, syllabisch)
> Ge-ria-trie (3)
> Ärz-te=i·n<.i-ti.a-ti-ve
> Ärz-te=i·n<.i·ti.a-ti-ve (1b, morphemisch)
> Ärz-te=i·ni·ti.a-ti-ve (2)
> Ärz-te=i·ni·tia-ti-ve (3a)
> Ärz-te=initia-ti-ve (4)
> Ärz-te-initia-ti-ve (6)
> Ärz-te=i·n<.i-ti.a-ti-ve
> Ärz-te=i·ni-ti.a-ti-ve (1b, syllabisch)
> Ärz-te=i·ni-tia-ti-ve (3a)
> Ärz-te=ini-tia-ti-ve (4)
> Ärz-te-ini-tia-ti-ve (6)
> Di-a<s-po-ra
> Di·a<s-po-ra (1b, morphemisch)
> Di·a<spo-ra (1a)
> Dia<spo-ra (4)
> Dia-spo-ra (6)
> Di-a<s-po-ra
> Di-as-po-ra (1b, syllabisch)
> Kaf-ka=ken-.ner
> Kaf-ka=kenner (2)
> Kaf-ka-kenner (6)
> al-ge-bra>i-sche
> al-ge-bra>ische (3a)
> al-ge-bra-ische (6)
> Ru-i-ne
> Rui-ne (3b)
> A<·s-phalt
> A<·sphalt (1a, morphemisch)
> Asphalt (4)
> A<·s-phalt
> As-phalt (1b, syllabisch)
> ge-ni.al
> ge-nial (5)
Ja.
Günter
Mehr Informationen über die Mailingliste Trennmuster