[Trennmuster] Kommentare zu »umformatierung.py«

Di Mär 13 00:29:32 CET 2018

Lieber Werner, liebe Trennfreunde,

On 10.03.18, Werner LEMBERG wrote:

> Bei der Durchsicht der Konvertierungsergebnisse »lang« zu »kurz« ist
> mir folgendes aufgefallen.

> (1) Es gibt den Eintrag

>       Ar-til-le-rie=ge<schoß;-2-;-3- # österr. auch in Reformschreibung

>     und die Mehrzahl dazu:

>       Ar-til-le-rie=ge<scho-ße;Ar-til-le-rie=ge<scho-ße;-3-;-4-;-5- # österr.

>     Ich frage mich jetzt aber, warum letzterer Eintrag Felder 4 und 5
>     explizit erwähnt.  Sollte nicht

>       Ar-til-le-rie=ge<scho-ße;Ar-til-le-rie=ge<scho-ße;-3- # österr.

>     ausreichend sein?

Oder nicht eher 

   Ar-til-le-rie=ge<scho-ße

das die regelmäßigen Ableitungen für Schweiz und Versalschreibung ja
nicht verboten sind.

> (2) Man könnte es auch genau umgekehrt sehen: Weil alle Versalformen
>     von »Artilleriegeschoß« durch den Eintrag »Artilleriegeschoss«
>     abgedeckt werden, sollte der Eintrag

>       Ar-til-le-rie=ge<schoß;-2-;-3-;-4-;-5-

>     heißen.

...

> (4) Der Eintrag

>       Biss;-2-;Biss;Biss;Biss

>     könnte, wenn man (1) folgt, zu

>       Biss;-2-;Biss

>     verkürzt werden.

Genauer gesagt zu 

        Biss;-2-

denn die dritte Spalte ist optional, wenn sie regelmäßig gebildet werden kann.

Es ist auch fraglich, ob die zweite Spalte ausgekreuzt werden muss, denn
Biß ist ja ein zulässiges Wort, wir haben es nur nicht explizit in der
"wortliste".	

Da ist noch Baustelle - siehe Kommentare zu umformatierung.py:

  Bei einigen Wörtern ist die ß-ss-Beziehung nicht eindeutig:

  =======  ========  =========
  de1901   de-1996   de-CH
  =======  ========  =========
  Maße     Maße      Masse
  Masse    Masse     Masse
  Geschoß  Geschoß   Geschoss
  Geschoß  Geschoss  Geschoss
  =======  ========  =========

  Dann gibt es ggf. zu einer Langform mehrere Kurzformen

  Bei (österreichischer) Alternativschreibung (Geschoß, Löß) wird gegenwärtig
  die ß-Variante nicht in den ss-Kurzeintrag übernommen.

  Daher kommt es zur Auskreuzung von eigentlich zulässigen Wörtern:

  >>> for line in convert_lines([u'Geschoss;-2-;-3-;Ge<schoss;Ge<schoss',
  ...                            u'Geschoß;Ge<schoß # österr. auch in Reformschreibung']):
  ...     print unicode(line)
  Geschoss;-2-;-3-;Geschoss;-5-;Ge<schoss;Geschoss # österr. auch in Reformschreibung
  Geschoß;-2-;Ge<schoß;Geschoß # österr. auch in Reformschreibung

Ich plädiere dafür, keine zulässigen Bildungen auszukreuzen nur weil sie
mehrfach gebildet werden können. Doppelungen müssen bei Bedarf von einem
Extraktionsskript erkannt und gelöscht werden.

Bsp:

  Ge<schoss
  Ge<schoß # österr. auch in de-1996

Schwierig ist es bei verschiedenen Trennungen (Geschoße, maßen)

  Mas-sen;Mas-sen;Mas-sen;Ma[-s/s-]sen # Massen und maßen
  ma-ßen;ma-ßen;Mas-sen;Ma[-s/s-]sen

oder

  Mas-sen;Mas-sen;Mas-sen;Ma[-s/s-]sen # Massen und maßen
  ma-ßen;ma-ßen;-3-;-4-;-5-

???

> (3) Sollte das Feld

>       Ästhet;Äs-thet # Trennung von s-th auch in de-1901, aber langes S (Äſ-thet)

>     im Langformat nicht zu

>       Äs-thet;Äs-thet # Trennung von s-th auch in de-1901, aber langes S (Äſ-thet)

>     im Kurzformat konvertiert werden?  Derzeit findet sich in der
>     generiert Kurzliste

>       Äs-thet # Trennung von s-th auch in de-1901, aber langes S (Äſ-thet)

Das ist Regelmäßig:

  #    Trennung von s-theta „schon immer“ erlaubt:
  #
  #    >>> print ableitung1901(u'Äs-thet')
  #    Äs-thet

und daher in der Umwandlung berücksichtig.

> (5) Warum hat der Eintrag

>       Es-ther;Esther # Name < hebr.

>     zwei Felder?  Sollte nicht

>       Es-ther # Name < hebr.

>     ausreichend sein?

Das ist eine Abweichung von der Regel.
Hier wird in de-1901 s-th nicht getrennt und weil E-sther nicht geht gar
nichts.

Gruß und Dank,

Günter