[Trennmuster] prepare_wordlist.sh

Georg Pfeiffer gp at praetor.de
So Feb 16 03:04:52 CET 2014


Hallo,

ich würde die prepare_wordlist.sh nebst strippunct.sed gerne ins
Repositorium stellen. Sie war von Werner als Entwurf in der TeXnischen
Komödie [1] vorgestellt und von Stephan ebendort [2] modifiziert
worden. Ich habe sie erneut modifiziert. Insbesondere habe ich 

- sie „unicodifiziert“.

< LC_COLLATE = de_DE . ISO8859 -1
> LC_COLLATE=de_DE.UTF8

- auf den Versuch verzichtet, Teil- und Stummel- und Bindestrich-Wörter
  zu finden. Die sind m. E. so selten und so auffällig, daß man sie bei
  der weiteren Verarbeitung leicht finden und von Hand entfernen kann.  

< s /[^ ]* -[^ ]*// g
< s /[^ ]*[ ’´ ][^ ]*// g

- die Liste der unerwünschten Zeichen erweitert.

< s/[‘"\*+=~«»<>,\.:;!\?()_]//g
> s/[-'‘"·*+=~«»<>.,:;!\?()_„“@©•—…0-9]/ /g

- römische Zahlen ausgeschlossen

> s/[IVXLDMC.]\{2,\}/ /g

- Worte mit weniger als vier Buchstaben ausgeschlossen

> | sed '/..../!d' \
 
Ich habe keine Ahnung, ob das unter allen Systemen so funktioniert,
bitte ggf. um erforderliche Verbesserungen und außerdem um Nachsicht für
meine unqualifizierten Eigenmächtigketien.

Gruß
Georg

[1] http://projekte.dante.de/pub/Trennmuster/Literatur/Lem05.pdf
[2] http://projekte.dante.de/pub/Trennmuster/Literatur/Hen08.pdf

prepare_wordlist.sh
--8<---------------cut here---------------start------------->8---
LC_COLLATE=de_DE.UTF8

#     $ sh prepare-wordlist.sh < Textdatei
#
# listet alle Wörter mit mindestens vier Buchstaben, die keine römischen 
# Zahlen sind, aus einer gegebenen Textdatei auf und …
#
#     $ sh prepare-wordlist.sh < Textdatei | grep -Fixvf Prüfliste
# 
# … prüft sie gegen eine ebenfalls gegebene Prüfliste:

sed -f ~/git/tl-script/strippunct.sed \
| sed '/..../!d' \
| sort -i \
| uniq -i
--8<---------------cut here---------------end--------------->8---

strippunct.sed:
--8<---------------cut here---------------start------------->8---
# wird von prepare-wordlist.sh verwendet.

s/[-'‘"·*+=~«»<>.,:;!\?()_„“@©•—…0-9]/ /g	# ersetzt alle nichtalphabetischen durch Leerzeichen
s/[IVXLDMC.]\{2,\}/ /g		      		# entfernt römische Zahlen
s/ /\n/g	    				# ersetzt Leerzeichen durch Zeilenumbruch
--8<---------------cut here---------------end--------------->8---
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : nicht verfügbar
Dateityp    : application/pgp-signature
Dateigröße  : 197 bytes
Beschreibung: nicht verfügbar
URL         : <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20140216/253f3f6b/attachment.sig>


Mehr Informationen über die Mailingliste Trennmuster