[Trennmuster] neuer Arbeitsansatz
Guenter Milde
milde at users.sf.net
Mo Nov 14 00:56:05 CET 2016
On 8.11.16, Werner LEMBERG wrote:
> > a) Löss=bo-den
> > Löß=bo-den
> >
> > +1 einfach
> > -1 zwei Einträge, die in de-1901 das gleiche Wort erbgeben
> Da eine Doppelung eigentlich immer eine Warnung erzeugen soll, sollten
> wir das als Ausnahme behandeln.
> > b) Löss=bo-den
> > Löß=bo-den;-2-
> >
> > oder
> >
> > Löss=bo-den;-2-
> > Löß=bo-den
> >
> > +1 eindeutige Ableitung: nur ein Lößboden in der Liste wenn
> > de-1901 extrahiert wird.
> > -1 was soll Regelfall und was Ableitung sein?
> Egal, denke ich mal. Oder vielleicht doch die deutsche NR-Form als
> Regel, und die österreichische als Ausnahme (mit Kommentar).
Das neue Skript
#> skripte/python/edit_tools/umformatierung.py -k < löss-lang > löss-kurz
macht jetzt aus den Einträgen der "wortliste"
lössbedeckt;-2-;-3-;löss=be<deckt;löss=be<deckt
lößbedeckt;löß=be<deckt
Lössboden;-2-;-3-;Löss=bo-den;Löss=bo-den
Lößboden;Löß=bo-den
Lössbörde;-2-;-3-;Löss=bör-de;Löss=bör-de
Lößbörde;Löß=bör-de
die Kurzform
löss=be<deckt;-2-
löß=be<deckt
Löss=bo-den;-2-
Löß=bo-den
Löss=bör-de;-2-
Löß=bör-de
und
#> skripte/python/edit_tools/umformatierung.py < löss-kurz > löss-relang
wandelt verlustfrei zurück.
Ich habe das Skript ins Repositorium geladen, so dass es für Tests und
Versuche zur Verfügung steht.
Manchmal hakt die Konvertierung noch, manchmal werden Inkonsistenzen ans
Tageslicht gebracht:
Ein Test mit Wörtern auf "p" zeigte z.B. ein Problem:
Presssaft;-2-;-3-;Press=saft;Press=saft
müßte
Presssaft;-2-;-3-;Press=saft;-5-;Press=saft;Press=saft;-8-
sein, denn in de-CH-1901 hat er nur 2 s:
Pressaft;-2-;-3-;-4-;-5-;-6-;-7-;Pre{ss/ss=s}aft
(dasselbe in ca. 42 weiteren Einträgen).
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster