[Trennmuster] neuer Arbeitsansatz

Guenter Milde milde at users.sf.net
Mo Nov 14 00:56:05 CET 2016


On  8.11.16, Werner LEMBERG wrote:

> > a)  Löss=bo-den
> >     Löß=bo-den
> >
> >     +1 einfach
> >     -1 zwei Einträge, die in de-1901 das gleiche Wort erbgeben

> Da eine Doppelung eigentlich immer eine Warnung erzeugen soll, sollten
> wir das als Ausnahme behandeln.

> > b)  Löss=bo-den
> >     Löß=bo-den;-2-
> >
> >     oder
> >
> >     Löss=bo-den;-2-
> >     Löß=bo-den
> >
> >     +1 eindeutige Ableitung: nur ein Lößboden in der Liste wenn
> >        de-1901 extrahiert wird.
> >     -1 was soll Regelfall und was Ableitung sein?

> Egal, denke ich mal.  Oder vielleicht doch die deutsche NR-Form als
> Regel, und die österreichische als Ausnahme (mit Kommentar).

Das neue Skript 

#> skripte/python/edit_tools/umformatierung.py -k < löss-lang > löss-kurz

macht jetzt aus den Einträgen der "wortliste"

  lössbedeckt;-2-;-3-;löss=be<deckt;löss=be<deckt
  lößbedeckt;löß=be<deckt
  Lössboden;-2-;-3-;Löss=bo-den;Löss=bo-den
  Lößboden;Löß=bo-den
  Lössbörde;-2-;-3-;Löss=bör-de;Löss=bör-de
  Lößbörde;Löß=bör-de

die Kurzform

  löss=be<deckt;-2-
  löß=be<deckt
  Löss=bo-den;-2-
  Löß=bo-den
  Löss=bör-de;-2-
  Löß=bör-de

und 

#> skripte/python/edit_tools/umformatierung.py < löss-kurz > löss-relang 

wandelt verlustfrei zurück.

Ich habe das Skript ins Repositorium geladen, so dass es für Tests und
Versuche zur Verfügung steht.

Manchmal hakt die Konvertierung noch, manchmal werden Inkonsistenzen ans
Tageslicht gebracht:

Ein Test mit Wörtern auf "p" zeigte z.B. ein Problem:

 Presssaft;-2-;-3-;Press=saft;Press=saft

müßte

 Presssaft;-2-;-3-;Press=saft;-5-;Press=saft;Press=saft;-8-

sein, denn in de-CH-1901 hat er nur 2 s:

 Pressaft;-2-;-3-;-4-;-5-;-6-;-7-;Pre{ss/ss=s}aft

(dasselbe in ca. 42 weiteren Einträgen).


Viele Grüße

Günter



Mehr Informationen über die Mailingliste Trennmuster