Langes oder rundes S: Automatische Konversion nach Silbentrennung

(1, 2)

"""
Automatische Bestimmung der S-Schreibung auf Basis der Silbentrennung
in der `Wortliste der deutschsprachigen Trennmustermannschaft`.
"""

import re

wordfile = file('wortliste') # volle Liste (≅ 400 000 Wörter
# wordfile = file('wortliste-binnen-s') # vorsortierte Liste (≅ 200 000 Wörter)

def s_ersetzen(word):

word = re.sub(ur'^s', ur'ſ', word)
word = re.sub(ur'([·\-=.])s', ur'\1ſ', word)

word = re.sub(ur'([AEIOUYÄÖÜaeiouäöü])s([aeiouyäöü])', ur'\1ſ\2', word)
word = re.sub(ur'([AEIOUYÄÖÜaeiouäöü])ss([aeiouyäöü])', ur'\1ſſ\2', word)

word = word.replace(u'st', u'ſt')
word = word.replace(u'sp', u'ſp')
word = word.replace(u'sch', u'ſch')

word = word.replace(u'ps', u'pſ')  # ψ
word = word.replace(u'Ps', u'Pſ')  # Ψ

# word = word.replace(u's-ſ', u'ſ-ſ')
word = word.replace(u's.ſ', u'ſ.ſ')
# word = word.replace(u's-p', u'ſ-p')
word = word.replace(u's.p', u'ſ.p')
# word = word.replace(u's-t', u'ſ-t') # Reformschreibung
word = word.replace(u's.t', u'ſ.t')

# für sz/ſz wurden Spezialregeln erstellt, die Vorkommnisse
# in der Wortliste erfassen

word = re.sub(ur'es[-·]zen', ur'eſ-zen', word) # Adoleszenz, ...
word = re.sub(ur's[-·]zil', ur'ſ-zil', word) # Os-zil-la-ti-on
word = re.sub(ur's[-·]zi-n', ur'ſ-zi-n', word) # faszinieren, ...

# Basel, Beisel, Pilsen, drechseln, wechseln, häckseln
 word = word.replace(u'Bas-ler', u'Baſ-ler')
 word = word.replace(u'Pils·ner', u'Pilſ-ner')
 word = word.replace(u'Pils-ner', u'Pilſ-ner')
 word = word.replace(u'echs-ler', u'echſ-ler') # Dechsler, Wechsler
 word = word.replace(u'äcks-ler', u'äckſ-ler') # Häcksler

 # Insel (Rheininsler), zünseln (Maiszünsler)
 word = word.replace(u'ins·ler', u'inſ-ler')
 word = word.replace(u'ins-ler', u'inſ-ler')
 word = word.replace(u'üns·ler', u'ünſ-ler')
 word = word.replace(u'üns-ler', u'ünſ-ler')

 # unsre, unsrige, ...
 word = word.replace(u'uns-r', u'unſ-r')

 # Häusl, Lisl, bissl, Glasl, Rössl
 word = word.replace(u'sl', u'ſl')
 word = word.replace(u'ssl', u'ſſl')
 # word = re.sub(ur'sl$', ur'ſl', word)
 # word = re.sub(ur'ssl$', ur'ſſl', word)

word = word.replace(u'sh', u'ſh')  # (englisch)
word = word.replace(u'sc', u'ſc')  # (englisch)
word = word.replace(u'Csar', u'Cſar') # Cs -> Tsch (ungarisch)
word = word.replace(u'sz', u'ſz')  # polnisch, ungarisch
word = re.sub(ur'([Tt])s([aeiouy])', ur'\1ſ\2', word) # ts (chinesisch)

return word

def is_complete(word):

spezialfaelle = [u'Dresd·ne', # Dresd·ner/Dresd·ner·in
                ]

for fall in spezialfaelle:
    word = word.replace(fall, u'~')

word = re.sub(ur's(=|$)', ur'~\1', word)
word = re.sub(ur'ss(=|$)', ur'~~\1', word)

# word = re.sub(ur'ss?([·.\-][^ptzſ])', ur'~\1', word) # konservativ
word = re.sub(ur'ss?([·.\-][^pzſ])', ur'~\1', word)   # traditionell

word = re.sub(ur'(^|[·.\-=])[Rr]?[Aa]us([·.\-=])', ur'\1~\2', word)
word = re.sub(ur'(^|[·.\-=])[Dd]is([·.\-=])', ur'\1~\2', word)
word = word.replace(u'on-fis-zie', u'on-fi~-zie')
word = word.replace(u'le-bis-z', u'le-bi~-z')

word = re.sub(ur's([knw])', ur'~\1', word)

return 's' not in word

def join_word(word):

if '{' in word:
        word = word.replace(u'{ck/k·k}',  u'ck')
        word = word.replace(u'{ff/ff·f}', u'ff')
        word = word.replace(u'{ll/ll·l}', u'll')
        word = word.replace(u'{mm/mm·m}', u'mm')
        word = word.replace(u'{nn/nn·n}', u'nn')
        word = word.replace(u'{rr/rr·r}', u'rr')

if '[' in word:
    word = word.replace(u'[cker·/ck·er.]',  u'cker')
    word = word.replace(u'[·cker·/ck·er.]', u'cker')
    word = word.replace(u'[ll·/ll]',        u'll')
    word = word.replace(u'[·ker·/k·er.]',   u'ker')
    word = word.replace(u'[·ſt/ſt·]',       u'ſt')

# Verbliebene komplexe Trennstellen::
# if ('[' in word) or ('{' in word):
#     print word.encode('utf8')

table = {ord(u'·'): None,
         ord('='): None,
         ord('-'): None,
         ord('_'): None,
         ord('.'): None,
        }
return word.translate(table)

rechtschreibung = 'de-1901'

words = set()

completed = []

ungewichtet = []

offen = []

de_1996 = [] # Schreibweisen nach neuer Rechtschreibung
de_CH = []     # Schreibweisen mit ß-Ersetzungen

source_encoding = 'utf8'

for line in wordfile:

try:
    line = line.rstrip().decode(source_encoding)
except UnicodeError:
    source_encoding = 'latin1'
    line = line.rstrip().decode(source_encoding)

line = line.split(u'#')[0]

fields = line.split(';')

i = 1                  # 2. Feld: allgemeingültige Trennung
if fields[i] == '-2-': # keine allgemeingültige Trennung
    i = 2              # 2. Feld: traditionelle Trennung
if fields[i] == '-3-': # Wort existiert nicht in traditioneller Schreibung
    if fields[3] == '-4-': # Wort existiert nicht in Reformschreibung
        de_CH.append(fields)
    else:
        de_1996.append(fields)
    continue
word = fields[i]  # Wort mit Trennstellen

words.add(fields[0])

if 's' not in fields[0][:-1]:
    completed.append(fields[0])
    continue

# # nur vorsortieren:
# offen.append(fields)
# continue

word = s_ersetzen(word)

if is_complete(word):
    completed.append(join_word(word))
    continue

fields[i] = word # Rückschreiben von teilweisen Ersetzungen

if word.find(u's·') != -1:
    ungewichtet.append(fields)
    continue

offen.append(fields)

completed_file = file('wortliste-lang-s', 'w')
completed_file.write(u'\n'.join(completed).encode('utf8'))
completed_file.write('\n')

for todo in ['ungewichtet', 'offen']:
    todo_file = file('wortliste-lang-s-'+todo, 'w')
    todo = globals()[todo] # get variable from string
    # todo = [u';'.join(fields) for fields in todo]
    todo = [fields[0] for fields in todo]
    todo_file.write(u'\n'.join(todo).encode('utf8'))
    todo_file.write('\n')

print "Gesamtwortzahl (traditionelle Rechtschreibung)", len(words)
print "Automatisch konvertiert", len(completed)
print "nur in neuer Rechtschreibung", len(de_1996)
print "Schweizer und Großschreibvarianten", len(de_CH)
print "Wichtung der Trennstellen fehlt", len(ungewichtet)
print "noch offen", len(offen)

print "\nkonvertiert+offen", len(completed) + len(ungewichtet) + len(offen)

|
+

·	ungewichtete Trennstellen (solche, wo noch niemand sich um die Gewichtung gekümmert hat)
.	unerwünschte Trennstellen (sinnverwirrend), z.B. Ur-in.stinkt
=	Haupttrennstellen
-	Nebentrennstellen
_	ungünstige Nebentrennstellen, z.B. Pol=ge_bie-te

Langes oder rundes S: Automatische Konversion nach Silbentrennung

Vorspann

Ausgangsbasis

Trennzeichen

Funktionen

ſ-Regeln

ſ vor Trennstellen

Spezialfälle

Fremdwörter

s-Regeln

Trennzeichen entfernen

Globale Variablen

Rechtschreibvariante

Kategorien

Kodierung

Hauptschleife

Dekodieren und Entfernen der Zeilenendezeichen

Zerlegen in Felder

Auswahl der Schreibweise

Vorsortieren

Ausgabe

Auswertung

Diskussion

Statistik

Offene Fälle

Wörter mit ſ am Wort oder Silbenende

Wörter mit identischer Schreibung ohne lang-s

Unklare Schreibung

Quellen