[Trennmuster] Kommentare zu »umformatierung.py«

Werner LEMBERG wl at gnu.org
Do Mär 29 09:15:52 CEST 2018


>> Ich habe wirklich lange gebraucht, bis das in meinem Skript
>> funktioniert hat.
>
> Wahrscheinlich längst nicht so lange wie ich.

:-)

>> Ich möchte stattdessen deskriptive Regeln, Feld für Feld.
>
> Das ist deutlich komplexer aber keine Hexerei: Einfach die Rekursion
> "inline schreiben":
>
>   1. Pfichtfeld, kann nicht abgeleitet werden
>
>   2. aus 1. mit "Rechtschreibreversion"
>
>   3. aus 1. mit ß-Ersatz (Trennung nach Sprechsilben)
>
>   4. aus 2. mit ß-Ersatz (ungetrenntes ss) oder aus 1. mit
>      "Rechtschreibreversion" und ß-Ersatz (ungetrenntes ss)
>
>   5. aus 2. mit ß-Ersatz (Trennung nach Sprechsilben und
>      Dreikonsonantenregel) oder aus 1. mit "Rechtschreibreversion"
>      und ß-Ersatz (Trennung nach Sprechsilben und
>      Dreikonsonantenregel)
>
> Aber da find ich meine Variante einfacher zu verstehen.

Ich nicht.  Ich finde obiges besser.

>> > In meiner Definition ist -x- kein "Faulenzer"-Platzhalter für
>> > einen automatisch generierbaren Eintrag, sondern in allen Feldern
>> > einheitlich Symbol für "not in list".
>>
>> Mhmm.  Das verkompliziert die algorithmischen Regeln deutlich.  Das
>> derzeitige, von Deinem Skript erzeugte Kurzformat braucht's nicht.
>
> Anwendungsfall: eineindeutige Darstellung eines Excerpts der
> Wortliste:
>
> z.B. die zwei Zeilen
>
>   verbiß;-2-;ver<biß;-4-
>   verbissen;ver<bis-sen
>
> können mit "Auskreuzen" in das Originalformat zurückgewandelt
> werden, mit "Faulenzern" nicht.

Es schaut aus, als ob ich mich unklar ausgedrückt habe.  Ich rede
ausschließlich von Faulenzern im Kurzformat.  An der Definition vom
Längsformat, so wie Du das dankenswerterweise systematisiert hast,
will ich nicht rütteln.  Obige zwei Zeilen werden ja zu

  ver<biss
  ver<bis-sen

im Kurzformat konvertiert, da gibt's sowieso keine Faulenzer.

>> Gib mir bitte einen Beispieleintrag im Kurzformat, wo »-x-« *kein*
>> Faulenzer ist!
>
>>>> dresz = WordEntry(u'Dreß;-2-;Dreß;-4-')
>>>> print unicode(ShortEntry(dresz))
> -1-;Dreß;-3-;-4-;-5-
>
>>>> entry = ShortEntry(u'-1-;Dreß;-3-;-4-;-5-')
>>>> for e in entry.wordentries():
> ...     print unicode(e)
> Dreß;-2-;Dreß;-4-

Das hab' ich nicht gemeint, siehe oben.  Im Übrigen wird der
Kurzformat-Eintrag

  -1-;Dreß

ebenfalls zu

  Dreß;-2-;Dreß;-4-

konvertiert – das »-3-;-4-;-5-« im Kurzeintrag ist also redundant.
Natürlich wird vom Konversionsskript auch stets ein zweiter
Langeintrag für »Dress« erzeugt – das muß ja für die Versalform immer
sein.

>> Ich glaube, wir haben unterschiedliche Auffassung, was »verläßlich«
>> bedeutet.  Die Eins-zu-eins-Wandlung sollte meiner Meinung nach nur
>> wohlgeformte Einträge korrekt abbilden – wobei durchaus mehrere
>> Einträge im einen Format mehreren Einträgen im anderen Format
>> entsprechen können.
>

> Wohlgeformt ja, aber eben auch ggf. unvollständig. Die Wandlung der
> kompletten Liste ist ja nur ein Anwendungsfall. Einzelne Einträge,
> z.B. Eigennamen, sollten 1:1 den Rund-trip überstehen, auch wenn sie
> ein ß enthalten.

Ja, aber dann muß der entsprechende Eintrag auch korrekt sein – mit
anderen Worten, die Unvollständigkeit wird explizit durch eine
passende Kombination der Kurzformat-Felder 2 bis 5 angezeigt.

>> Ich finde es viel besser, notwendige Einträge im Langformat zu
>> ergänzen, falls sie fehlen sollten, als daß wir formattechnische
>> Verrenkungen brauchen, um einen rudimentären Langeintrag darstellen
>> zu können.
>
> Praktisch werden wir für die vollständige Wortliste ein Auskreuzen
> der Spalten 3…5 nicht benötigen.  Da können wir aber auch die
> einfachere und konsistente Definition nutzen.

Hmm.  Vielleicht ein Mittelweg: Eine einfachere Definition mit einer
Fußnote oder Anmerkung (sozusagen das Kleingedruckte).

> ¹ Die Voraussetzung in "... alle Einträge herausgefiltert, die
>   Trennstellen mit nur einem Buchstaben Abstand enthalten – solche
>   Trennstellen müssen auf jeden Fall falsch sein." stimmt allerdings
>   nicht.  Schon in de-1901 sind einbuchstabige Silben (Vokale die
>   silbisch gesprochen werden wie in "Jus-ti-ti-a-rin") erlaubt.

Ja, mein Kommentar ist inzwischen überholt.


    Werner




Mehr Informationen über die Mailingliste Trennmuster