[Trennmuster] Lang-S: Text-Transformation

Stephan Hennig mailing_list at arcor.de
So Jun 15 20:50:19 CEST 2014


Am 13.06.2014 12:06, schrieb Guenter Milde:

> Was ist dafür noch nötig?
> -------------------------
> 
> * Extraktionsskript für die "Lang-S-Pseudo-Trennliste"
> 
> * Make target

Ja, bitte!  Mir fehlt die Zeit dazu.  Vorschlag:

  make rounds


> * Anwenderprogramm, z.B. als Python-Skript, Texteditor-Plug-in oder
>   LuaTeX-Paket.

Im Padrinoma-Repositorium, <URL:https://github.com/sh2d/padrinoma>, gibt
es bereits ein Beispiel, welches eine Trennmusterdatei (aus purem
UTF-8-Text, so wie sie im Paket hyph-utf8 enthalten sind) auf die Wörter
in der Standardeingabe anwendet und diese visuell in Muster zerlegt
(siehe Verzeichnis examples/lua/patternize).  Die Option -T lädt in
diesem Beispiel die traditionellen Muster.  Per Option -p können aber
auch beliebige Muster verwendet werden.  Näheres per Option --help.

> $ echo ausdrucksstark |texlua patternize.lua -T
> boundary letter: '.'
> spot mins: 2 2
> pattern file: d:/texlive/2013/texmf-dist/tex/generic/hyph-utf8/patterns/txt/hyph
> -de-1901.pat.txt
> 15419 patterns read.
> 
>  . a u s d r u c k s s t a r k .
>    a2u
>     2u s
>  . a u2s1
>       4s3d2
>   1a u s d
>          d2r4
>        s d4r
>           1r u
>             2u c
>         3d4r u c
>               4c4k
>                 2k1s
>                   2s1s
>                  k s s2
>                     1s t
>                   4s s t
>                    s s t2a
>                    s s2t a r
>                           2r1k
>                       2t a r k
>  .0a0u4s3d4r4u4c4k4s1s2t2a2r0k0.
> aus-drucks-stark

Statt Trennzeichen einzufügen, wäre es ohne großen Aufwand möglich,
andere Zeichenkettenmanipulationen durchzuführen, also s durch ſ zu
ersetzen, sofern durch Muster nicht anders angezeigt.

Übrigens, auch wenn es logisch ist, zunächst alle s in der Eingabe in ſ
zu wandeln und dann per Muster die Rund-s anzuzeigen, wäre es weniger
aufwändig, mit den Mustern die Ersetzungsstellen direkt anzuzeigen, also
Lang-S-Muster zu verwenden.  Dann muss die Zeichenkette (oder
Knotenliste in LuaTeX) nicht noch parallel nach anderen s durchsucht
werden.  Es sei denn, Rund-s-Muster sind deutlich kleiner als
Lang-s-Muster ...

Viele Grüße,
Stephan Hennig




Mehr Informationen über die Mailingliste Trennmuster