[Trennmuster] strippunct.sed
Georg Pfeiffer
gp at praetor.de
Do Nov 7 19:38:07 CET 2013
Hallo,
bezugnehmend auf Stephan Hennigs Überarbeitung [1] von Werner Lembergs Skript
strippunct.sed [2] möchte ich die dasigen regulären Ausdrücke so modifizieren,
daß auch römische Zahlen und Worte mit weniger als drei Buchstaben
herausgefiltert werden.
Die römischen Zahlen kriege ich mit:
s/[IVXLDMC\.]\{2,\}/ /g
eingefügt als Zeile zwei.
Die Kurzworte wollte ich mit
s/[^[:alpha:]][[:alpha:]]\{,3\}[^[:alpha:]]/ /g
fangen. Aber ich erwische sie nicht, warum nicht?
Auch sonst gibt es komische Effekte. Aus der Zeile
Dreyfuß, welchen die Griechen als eine Löse (Erstlingsgabe) von der Persischen
zieht es mir „DreyfußErstlingsgabe“. Da stimmpt was nicht.
Z.Z. sieht die Datei so aus:
s/[[:alpha:]][^[:space:]]*[^[:alpha:][:space:]][^[:space:]]*[[:alpha:]]//g
s/[IVXLDMC\.]\{2,\}/ /g
s/[[:alpha:]]*[[:digit:]’ ́-]\{1,\}[[:alpha:]]*//g
s/[^[:alpha:][:space:]]//g
s/[[:space:]]\{1,\}/\n/g
Gruß
Georg
[1] <URL:http://www.dante.de/DTK/Ausgaben/2008-1.pdf> S. 13 ff.
[2] <URL:http://www.dante.de/DTK/Ausgaben/komoedie20052.pdf> S. 24 ff.
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20131107/44074c08/attachment.htm>
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname : signature.asc
Dateityp : application/pgp-signature
Dateigröße : 198 bytes
Beschreibung: This is a digitally signed message part.
URL : <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20131107/44074c08/attachment.asc>
Mehr Informationen über die Mailingliste Trennmuster