[Trennmuster] Paket fuer Sondertrennungen

So Jan 26 10:51:02 CET 2014

Am 25.01.2014 14:15, schrieb Werner LEMBERG:

> cat wortliste \
> | perl skripte/extract-tex.pl -t -x \
> | grep '{' \
> | sed -e 's/[.·|=-]//g' \
>       -e '/\[/d' \

Weshalb diese Zeile?  Die Trennung von Alternativen soll doch nicht im
Ungefähren bleiben, sondern die Trennung soll an den fraglichen Stellen
unterdrückt werden, oder?

>       -e 's/{\(.\)\(.\)[^}]*}/\1-\2/g' \
> | iconv -f utf8 -t latin1 \
>> wortliste.trad

Unten angehängt ist meine Version mit zwei Anpassungen.  Die
interessierenden Sondertrennungen werden zunächst durch + markiert, alle
anderen Trennungen dann entfernt und die + schließlich wieder durch -
ersetzt.  Außerdem müssen die Kodierungsparameter für iconv in der
Version, die bei msysgit mitgeliefert wird, in Großbuchstaben angegeben
werden.

Der erhaltene gemischte Mustersatz besteht aus immerhin 374 Mustern und
es werden alle acht Level benötigt.  Vermutlich lässt sich das drücken,
indem an den Patgen-Parametern gedreht wird.  Die betrachteten Wörter
sind ja immer recht lang.

Ich habe das Beispiel für die ck-Trennung erweitert und verbesserte
ck-Muster ins Repositorium hochgeladen.

Viele Grüße,
Stephan Hennig

#!/bin/sh
# -*- coding: utf-8 -*-
cat wortliste \
| perl skripte/extract-tex.pl -t -x \
| sed -e 's/{\(.\)\(.\)[^}]*}/\1+\2/g' \
      -e 's/\[\([^/]*\)\/[^]]*\]/\1/g' \
| sed -e 's/[.·|=-]//g' \
| sed -e 's/+/-/g' \
| iconv -f UTF-8 -t LATIN1 \
> wortliste.trad

sh skripte/make-full-pattern.sh wortliste.trad daten/german.tr
iconv -f LATIN1 -t UTF-8 pattern.8 > nstd-hyph-de-1901.pat.txt