[Trennmuster] strippunct.sed

Georg Pfeiffer gp at praetor.de
Do Nov 7 19:38:07 CET 2013


Hallo,

bezugnehmend auf Stephan Hennigs Überarbeitung [1] von Werner Lembergs Skript 
strippunct.sed [2] möchte ich die dasigen regulären Ausdrücke so modifizieren, 
daß auch römische Zahlen und Worte mit weniger als drei Buchstaben 
herausgefiltert werden.

Die römischen Zahlen kriege ich mit:

s/[IVXLDMC\.]\{2,\}/ /g

eingefügt als Zeile zwei.

Die Kurzworte wollte ich mit

s/[^[:alpha:]][[:alpha:]]\{,3\}[^[:alpha:]]/ /g

fangen. Aber ich erwische sie nicht, warum nicht? 

Auch sonst gibt es komische Effekte. Aus der Zeile 

Dreyfuß, welchen die Griechen als eine Löse (Erstlingsgabe) von der Persischen

zieht es mir „DreyfußErstlingsgabe“. Da stimmpt was nicht.

Z.Z. sieht die Datei so aus:

s/[[:alpha:]][^[:space:]]*[^[:alpha:][:space:]][^[:space:]]*[[:alpha:]]//g
s/[IVXLDMC\.]\{2,\}/ /g
s/[[:alpha:]]*[[:digit:]’ ́-]\{1,\}[[:alpha:]]*//g
s/[^[:alpha:][:space:]]//g
s/[[:space:]]\{1,\}/\n/g

Gruß
Georg


[1] <URL:http://www.dante.de/DTK/Ausgaben/2008-1.pdf> S. 13 ff.
[2] <URL:http://www.dante.de/DTK/Ausgaben/komoedie20052.pdf> S. 24 ff.
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20131107/44074c08/attachment.htm>
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : signature.asc
Dateityp    : application/pgp-signature
Dateigröße  : 198 bytes
Beschreibung: This is a digitally signed message part.
URL         : <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20131107/44074c08/attachment.asc>


Mehr Informationen über die Mailingliste Trennmuster