[Trennmuster] Lang-S: Text-Transformation
Guenter Milde
milde at users.sf.net
So Jun 15 22:08:17 CEST 2014
On 15.06.14, Stephan Hennig wrote:
> Am 13.06.2014 12:06, schrieb Guenter Milde:
> > Was ist dafür noch nötig?
> > -------------------------
> >
> > * Extraktionsskript für die "Lang-S-Pseudo-Trennliste"
> >
> > * Make target
> Ja, bitte! Mir fehlt die Zeit dazu. Vorschlag:
> make rounds
Wir wollen aber aus (einigen) runden s lange machen!
> > * Anwenderprogramm, z.B. als Python-Skript, Texteditor-Plug-in oder
> > LuaTeX-Paket.
> Im Padrinoma-Repositorium, <URL:https://github.com/sh2d/padrinoma>, gibt
> es bereits ein Beispiel, welches eine Trennmusterdatei (aus purem
> UTF-8-Text, so wie sie im Paket hyph-utf8 enthalten sind) auf die Wörter
> in der Standardeingabe anwendet und diese visuell in Muster zerlegt
> (siehe Verzeichnis examples/lua/patternize). Die Option -T lädt in
> diesem Beispiel die traditionellen Muster. Per Option -p können aber
> auch beliebige Muster verwendet werden. Näheres per Option --help.
...
> Statt Trennzeichen einzufügen, wäre es ohne großen Aufwand möglich,
> andere Zeichenkettenmanipulationen durchzuführen, also s durch ſ zu
> ersetzen, sofern durch Muster nicht anders angezeigt.
Klingt ja schon einmal gut.
> Übrigens, auch wenn es logisch ist, zunächst alle s in der Eingabe in ſ
> zu wandeln und dann per Muster die Rund-s anzuzeigen, wäre es weniger
> aufwändig, mit den Mustern die Ersetzungsstellen direkt anzuzeigen, also
> Lang-S-Muster zu verwenden.
Du meinst, wir müssen hinterher nicht so viel Mühe aufwänden (sic!), wenn
die Eingabe für patgen anstelle der Langen-eSSe Trennstriche oder
Sternchen hat:
...
Aachens
...
Aalfi*cher
...
e**en
...
Zy*te
Zy*ten
Zyto*tatika
zzgl
> Dann muss die Zeichenkette (oder Knotenliste in LuaTeX) nicht noch
> parallel nach anderen s durchsucht werden.
Ja, dann könnten wir uns 2 simple Ersetzungsoperationen (s->ſ, s- -> s)
sparen. Allerdings ist der Aufwand für eine simple Zeichenersetzung meines
Erachtens vernachlässigbar gegenüber der Ersetzung nach Mustern.
> Es sei denn, Rund-s-Muster sind deutlich kleiner als Lang-s-Muster ...
Wenn wir das eindeutig runde Schluß-s weglassen, ist es ein Faktor 19:8 bei
den Eingabemustern:
Liste von 470 000 Wörtern mit korrekter Lang-S-Schreibung,
davon 190 000 Wörter mit mindestens einem langem ſ
und 130 000 Wörter mit mindestens einem kleinem runden s
(davon 80 000 Wörter mit rundem s im Wortinneren).
Wie gut die Kompression bei Lang-S vs. Rund-S ist muß ausprobiert werden.
Was aber auch für rund-s Muster spricht, ist die bessere Lesbarkeit:
Da ein Rund-S nur am Silbenende vorkommen kann, haben wir einfach eine Liste
mit "reduzierter Silbentrennung" (nämlich nur den Trennstellen, die auf ein
Rund-S folgen):
...
Aas-geier
Aus-gang
...
essen
...
Zynis-mus
...
zzgl
Was davon nun praktischer ist, muß sich in der Praxis zeigen.
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster