[Trennmuster] Kommentare zu »umformatierung.py«
Guenter Milde
milde at users.sf.net
Di Mär 13 00:29:32 CET 2018
Lieber Werner, liebe Trennfreunde,
On 10.03.18, Werner LEMBERG wrote:
> Bei der Durchsicht der Konvertierungsergebnisse »lang« zu »kurz« ist
> mir folgendes aufgefallen.
> (1) Es gibt den Eintrag
> Ar-til-le-rie=ge<schoß;-2-;-3- # österr. auch in Reformschreibung
> und die Mehrzahl dazu:
> Ar-til-le-rie=ge<scho-ße;Ar-til-le-rie=ge<scho-ße;-3-;-4-;-5- # österr.
> Ich frage mich jetzt aber, warum letzterer Eintrag Felder 4 und 5
> explizit erwähnt. Sollte nicht
> Ar-til-le-rie=ge<scho-ße;Ar-til-le-rie=ge<scho-ße;-3- # österr.
> ausreichend sein?
Oder nicht eher
Ar-til-le-rie=ge<scho-ße
das die regelmäßigen Ableitungen für Schweiz und Versalschreibung ja
nicht verboten sind.
> (2) Man könnte es auch genau umgekehrt sehen: Weil alle Versalformen
> von »Artilleriegeschoß« durch den Eintrag »Artilleriegeschoss«
> abgedeckt werden, sollte der Eintrag
> Ar-til-le-rie=ge<schoß;-2-;-3-;-4-;-5-
> heißen.
...
> (4) Der Eintrag
> Biss;-2-;Biss;Biss;Biss
> könnte, wenn man (1) folgt, zu
> Biss;-2-;Biss
> verkürzt werden.
Genauer gesagt zu
Biss;-2-
denn die dritte Spalte ist optional, wenn sie regelmäßig gebildet werden kann.
Es ist auch fraglich, ob die zweite Spalte ausgekreuzt werden muss, denn
Biß ist ja ein zulässiges Wort, wir haben es nur nicht explizit in der
"wortliste".
Da ist noch Baustelle - siehe Kommentare zu umformatierung.py:
Bei einigen Wörtern ist die ß-ss-Beziehung nicht eindeutig:
======= ======== =========
de1901 de-1996 de-CH
======= ======== =========
Maße Maße Masse
Masse Masse Masse
Geschoß Geschoß Geschoss
Geschoß Geschoss Geschoss
======= ======== =========
Dann gibt es ggf. zu einer Langform mehrere Kurzformen
Bei (österreichischer) Alternativschreibung (Geschoß, Löß) wird gegenwärtig
die ß-Variante nicht in den ss-Kurzeintrag übernommen.
Daher kommt es zur Auskreuzung von eigentlich zulässigen Wörtern:
>>> for line in convert_lines([u'Geschoss;-2-;-3-;Ge<schoss;Ge<schoss',
... u'Geschoß;Ge<schoß # österr. auch in Reformschreibung']):
... print unicode(line)
Geschoss;-2-;-3-;Geschoss;-5-;Ge<schoss;Geschoss # österr. auch in Reformschreibung
Geschoß;-2-;Ge<schoß;Geschoß # österr. auch in Reformschreibung
Ich plädiere dafür, keine zulässigen Bildungen auszukreuzen nur weil sie
mehrfach gebildet werden können. Doppelungen müssen bei Bedarf von einem
Extraktionsskript erkannt und gelöscht werden.
Bsp:
Ge<schoss
Ge<schoß # österr. auch in de-1996
Schwierig ist es bei verschiedenen Trennungen (Geschoße, maßen)
Mas-sen;Mas-sen;Mas-sen;Ma[-s/s-]sen # Massen und maßen
ma-ßen;ma-ßen;Mas-sen;Ma[-s/s-]sen
oder
Mas-sen;Mas-sen;Mas-sen;Ma[-s/s-]sen # Massen und maßen
ma-ßen;ma-ßen;-3-;-4-;-5-
???
> (3) Sollte das Feld
> Ästhet;Äs-thet # Trennung von s-th auch in de-1901, aber langes S (Äſ-thet)
> im Langformat nicht zu
> Äs-thet;Äs-thet # Trennung von s-th auch in de-1901, aber langes S (Äſ-thet)
> im Kurzformat konvertiert werden? Derzeit findet sich in der
> generiert Kurzliste
> Äs-thet # Trennung von s-th auch in de-1901, aber langes S (Äſ-thet)
Das ist Regelmäßig:
# Trennung von s-theta „schon immer“ erlaubt:
#
# >>> print ableitung1901(u'Äs-thet')
# Äs-thet
und daher in der Umwandlung berücksichtig.
> (5) Warum hat der Eintrag
> Es-ther;Esther # Name < hebr.
> zwei Felder? Sollte nicht
> Es-ther # Name < hebr.
> ausreichend sein?
Das ist eine Abweichung von der Regel.
Hier wird in de-1901 s-th nicht getrennt und weil E-sther nicht geht gar
nichts.
Gruß und Dank,
Günter
Mehr Informationen über die Mailingliste Trennmuster