[Trennmuster] Präfixe

Keno Wehr keno.wehr at abgol.de
Do Apr 19 22:48:01 CEST 2018


Im Anhang findet ihr drei Präfixlisten, die ich zur Ablage im 
Repositorium zur Verfügung stelle. Die erste enthält die „echten“ 
Präfixe, die zweite die assimilierten Präfixe, die dritte solche 
Wortteile, die nur als erste Bestandteile in Zusammensetzungen 
vorkommen, aber dennoch als gleichrangig zum zweiten Bestandteil zu 
betrachten sind, wie kürzlich am Beispiel der griechisch-lateinischen 
Bestimmungswörter auf o erläutert. Für diese habe ich die Bezeichnung 
„unselbständige Bestimmungswörter“ eingeführt. Vorschläge für eine 
elegantere Bezeichnung sind willkommen.

Das Ziehen der Grenzlinie zwischen Präfixen und unselbständigen 
Bestimmungswörtern ist sicher mit einiger Willkür verbunden. Mein 
Prinzip war, von Substantiven, Verben und Adjektiven abgeleitete 
Teilwörter in die Gruppe der unselbständigen Bestimmungswörter 
einzuordnen, während ich auf Präpositionen, Konjunktionen, 
griechisch-lateinische Pronomen und Zahlwörter zurückgehende Wortteile 
sowie deutsche Einzelsilben als Präfixe klassifiziert habe.

Zur Vereinfachung werde ich „Präfix“ im Folgenden auch als Oberbegriff 
für beides verwenden.

Im Moment werden die Wortteile aus allen drei Dateien in der Wortliste 
(mehr oder weniger vollständig) durch < abgegrenzt und die derzeitigen 
Syntaxregeln lassen auch kaum eine zufriedenstellende Alternative zu. 
Generell bin ich aber der Meinung, dass eine Trennstelle nach einem 
unselbständigen Bestimmungswort günstiger ist als eine nach einem Präfix 
und eine Trennstelle nach einem „echten“ Präfix günstiger als eine nach 
einem assimilierten. Eventuell könnte dies künftig im Rahmen einer 
weiterentwickelten Wortlistensyntax berücksichtigt werden. Wenn ihr 
hierfür keine Perspektive seht, können die Listen aber auch ganz oder 
teilweise zusammengelegt werden.

Die beiden Listen enthalten auch Trennstelleninformationen und folgen 
der Kurzlistensyntax, wobei allerdings keine automatische Ableitung 
vorausgesetzt wird, d.h. es sind immer alle Trennvarianten aufgelistet. 
Es gibt Zeilen mit einem, zwei (z.B. „aris-to;ari-sto“) und fünf 
Einträgen (nur „außer“ und „miss“/„miß“). Einige Präfixe enthalten 
ihrerseits ein Präfix, das dann auch als solches gekennzeichnet ist, 
z.B. „epi<de-mio“. Kommentare werden wie üblich durch # eingeleitet. In 
einigen Fällen weisen die Kommentare auf Trennalternativen hin, daher 
bitte ich um eine aufmerksame Durchsicht derselben.

Da ich mit „sort“ keine perfekten Ergebnisse erhalten habe, könnte es 
nicht schaden, wenn ihr vor der Veröffentlichung noch ein Sortierskript 
über die Dateien laufen lassen würdet.


Die Listen bieten mittels geeigneter Skripte mehrere Möglichkeiten zur 
Fehlererkennung in vorhandenen und künftigen Wortlisteneinträgen.

1. Für in der Wortliste mit < gekennzeichnete Wortbestandteile kann 
geprüft werden, ob diese in einer der Listen vorkommen.

Dies wird mit der aktuellen Wortliste etliche Treffer liefern, da ich 
einige fragwürdige Präfixe entfernt habe. Zum Beispiel hat das „Abo“ 
einen gänzlich anderen Charakter als „Demo“ oder „Chrono“, da es auch 
als zweiter Bestandteil vorkommt: „Zeitschriftenabo“.
Bei solchen Treffern sollte die Trennstelle anders kategorisiert werden 
(beim „Abo“ mit =; in anderen Fällen scheint auch - angezeigt). Falls 
der vorhandene Eintrag als korrekt erachtet wird, sollten die 
Präfixlisten erweitert werden, die keinen Anspruch auf Vollständigkeit 
erheben können.

Mit dieser Prüfung können auch Präfixe mit fehlerhafter Trennung 
entdeckt werden wie „af-ro“ (Trennung regelwidrig) oder „makro“ 
(Trennung fehlt).

Auch lustige Versehen wie der „Metereo<loge“ (sic!) kommen auf diese 
Weise zum Vorschein – der wäre ein Fall für die Nichtwortliste.

2. Für Präfixe, die selbst ein Präfix enthalten, kann geprüft werden, ob 
die „Klammerung“ im Sinne einer korrekten Darstellung der 
Bindungsverhältnisse in der Wortliste korrekt ist.

Beispielsweise ist aufgrund der Rechtsassoziativität von < der Eintrag 
„Inter<fero<meter“ falsch. Es müsste „Inter<fero<=meter“ (Messgerät, das 
auf Interferenz beruht) heißen. Da die Listen „fero“ nicht enthalten, 
wohl aber „inter<fero“, können diese und einige vergleichbare Fehler 
automatisiert erkannt werden.

3. Es kann geprüft werden, ob es Wörter gibt, die Präfixe enthalten, die 
nicht als solche markiert sind.

Hier ist natürlich eine manuelle Entscheidung des Einzelfalls 
unumgänglich. Nicht jedes Wort, das mit „in“ beginnt, enthält auch das 
Präfix „in“. Während der Eintrag „auto=assoziativ“ falsch ist, ist 
„Auto=bahn“ richtig, da „Auto“ im zweiten Fall ein Kurzwort ist. Die 
Kommentare in den Listen weisen auf gleichlautende Kurzwörter hin, bei 
denen dann die Markierung mit = statt < erfolgen sollte, was natürlich 
nicht automatisiert möglich ist.

4. Es lässt sich prüfen, ob es Präfixe gibt, die in der Wortliste 
nirgends vorkommen.

Bei Treffern muss im Einzelfall überlegt werden, wie zu verfahren ist. 
Ich habe das kürzlich erwähnte Präfix „deutero“ ergänzt; in der 
Wortliste kommt das bisher nicht vor. Daher würde ich „Deuteronomium“ 
und „deuterokanonisch“ ergänzen. In anderen Fällen können so vielleicht 
unnötige Präfixe gelöscht oder orthographisch korrigiert werden.

5. Man könnte – weitgehend manuell – nach Kurzwörtern suchen, die in der 
Wortliste fälschlich als Präfixe kategorisiert sind.

Solche Kategorisierungsfehler können nicht automatisch erkannt werden, 
wenn das Kurzwort in gleicher Schreibung auch als Präfix existiert. 
Beispielsweise ist in der Wortliste die „Demoseite“ falsch kategorisiert 
ist, „Demo“ hier das Kurzwort für Demonstration ist und nicht der 
griechische Wortteil für „Volk“. Evtl. könnte es nützlich sein, dafür 
eine zusätzliche Liste von Präfixen anzulegen, die auch als Kurzwörter 
vorkommen. Bisher finden sich Hinweise dazu nur in den Kommentaren der 
Präfixlisten.

6. Schließlich wäre es möglich, mit geeigneten Heuristiken nach Präfixen 
zu suchen, die bisher weder in der Wortliste, noch in den Präfixlisten 
berücksichtigt sind.

Beispielsweise haben viele Präfixe, die auf einen Vokal enden, eine 
Nebenform ohne Vokal vor Vokalen. Möglicherweise wurden die noch nicht 
alle erfasst. Ob derartige Versuche erfolgversprechend sind, weiß ich 
allerdings nicht.


Für 1 bis 6 gilt, dass ich entsprechende Skripte noch nicht entwickelt 
habe. Ich vermute, dass ihr mit eurem Knowhow und auf der Grundlage des 
schon vorhandenen Bestands dies schneller könnt.


Unten gebe ich noch fürs Protokoll die Abweichungen von Günters Liste 
(skripte/python/trennstellenkategorisierung/wortteile/praefixe) an. 
Dabei heißt - entfernt und + ergänzt.

Viel Spaß beim Sichten
Keno


- abo
+ adeno
+ ag
+ agri
+ ak
- aller
- allo
+ amnio
+ antho
+ areo
+ as
+ ausser
+ australo
+ azoo
- bon
+ cardio
+ chole
+ christo
+ chromat
+ cinemato
+ co
+ col
+ com
+ cor
+ dé
+ desmo
+ deutero
+ dif
+ dikta
- do
+ dodeka
- dran
- drauf
- drin
- drüber
+ echino
+ ef
- einher
+ ek
+ embryo
+ endokrino
- entgegen
- entlang
+ entomo
+ enzephalo
+ epidemio
+ erythro
+ eury
- fero
+ filmo
+ futuro
+ galvano
+ genea
- gono
+ glosso
+ glypto
- gut
+ gravi
- heim
+ helico
+ heliko
+ heno
- herab
- heran
- herauf
- heraus
- herbei
- herein
- hernieder
- herüber
- herum
- herunter
- hervor
- herzu
- hinab
- hinan
- hinauf
- hinaus
- hindurch
- hinein
- hintan
- hinüber
- hinunter
- hinweg
- hinzu
+ historio
+ hygro
+ ibero
+ ikosa
- info
+ indo
- inne
+ inklino
+ interfero
- jugo
+ japano
+ kako
+ kalori
+ kapillaro
+ kin
+ kinema
+ kinemato
+ kinesio
- klino
+ kol
+ koni
+ kontro
+ kranio
- krino
+ krypt
+ laryngo
+ matri
+ medi
+ media
+ medio
+ megalo
+ melano
+ meningo
+ meno
+ met
- meto
+ minera
+ mino
+ miso
+ mito
+ muta
+ nukleo
+ nympho
+ oc
+ oeso
+ of
+ ok
+ okta
+ olympio
- öno
+ op
+ organi
+ os
+ ot
+ paläonto
+ parallelo
+ pent
- pharma
+ phänomeno
+ phyllo
+ piezo
+ piko
+ pikto
+ pinako
+ plasmo
+ pleisto
- polit
+ pondero
+ präter
+ praxeo
+ presby
+ pyo
+ quadru
+ rheumato
+ rhino
+ rhod
+ ri
+ rif
- runter
+ sarko
+ schizo
+ sema
+ sexa
+ sin
+ skia
- sono
+ sphäro
+ staphylo
+ stegano
+ tacho
+ taxa
+ techni
- tempo
+ tra
+ trigono
- umher
- umhin
- vorab
- voran
- voraus
- vorbei
- vorher
- vornüber
- vorüber
- vorweg
- weiter
+ xanth
+ xantho
+ zeo
+ zis
- zurecht
- zurück
- zuvor
- zuwider
-------------- nächster Teil --------------
ab
aber
ad
all
als
am-bi
ana
an # dt. Vorsilbe; griech. alpha privativum + Binde-n; evtl. auch ana- vor Vokalen
ant
an-ti
ape-ri # alpha privativum + „peri“
apo
äqui
ar-che
asyn # alpha privativum + „syn“
auf
aus
au-ßer;au-ßer;aus-ser;au-sser;aus-ser
aut
au-to # auch als Kurzwort für „Automobil“
be
bei
be-ne
bi
bis
by
co
con
da
dar
dé
de-ka # griech. Kardinalzahl 10, auch Einheitenvorsatz
de # lat.
dem
der
des
deu-te-ro # < griech. Ordnungszahl 2
de-zi # Einheitenvorsatz
di
dia
di-cho # < griech. Adverb δίχα (geteilt, zweifach)
dis
do<de-ka
down
drein
drum
durch
dys
ego
ein # Vorsilbe; auch Zahlwort
ek
emp
em-por
en-do
en # griech.
ent
en-to
epi
er
erz
eu
eu-ry # < griech. εὐρύς (breit, weit); offenbar nur in Eigennamen
exa # < griech. ἕξ (sechs), Einheitenvorsatz
ex # lat.
exo
ex-tra
ex-tro # nur in „extrovertiert“, eigentlich „extra“
fem-to # Einheitenvorsatz
fort
für
ge
ge-gen
gi-ga # Einheitenvorsatz
hekt
hek-to # Einheitenvorsatz
he-mi
he-no # < griech. εἷς (eins), Gen. ἑνός
her
he-te-ro # < griech. ἕτερος (anders)
he-xa
hie
hier # dt. und griech. (= hiero)
hin
hint
hin-ter
hoch # einziges deutsches Adjektiv in der Liste (also: „Hoch<bau“, aber „Tief=bau“)
ho-lo # < griech. ὅλος  (ganz)
ho-mo # < griech. ὁμός (gleich)
ho-möo # < griech. ὅμοιος (gleich, ähnlich)
hy-per
hy-po
iko-sa
in # dt. und lat.
in-fra
ins # dt.
in-ter
in-tra
in-tro # lat. Adverb (hinein)
jux-ta
kat
ka-ta
ki-lo # Einheitenvorsatz
ko
kon
kon-ter
kon-tra
kon-tro # nur in „kontrovers“, eigentl. „kontra“
los
mal # frz.
me-ga # auch Einheitenvorsatz
mes # frz.
me-ta
met # meta vor Vokalen
mil-li # Einheitenvorsatz
mi-ni
mis # miso vor Vorkalen
mi-so # < griech. μῖσος (Hass)
miss;miß;miss;miss;miss
mit
mon # mono vor Vokalen
mo-no # < griech. μόνος (allein)
mul-ti
nach
ne-ben
nie-der
non
nor # kurz für „normal“
ob # dt. und lat.
oben
ober
off # engl.
ohn
ok-ta
ok-to
om-ni
on # engl.
out
over
pan
pan-to
pa-ra
par # para vor Vokalen
pent
pen-ta
per
pe-ri
pe-ta # Einheitenvorsatz
po-ly
post # lat. Präfix; auch eigenständiges Wort
prä
prä-ter
pre
pré
prot
pro-to
qua-dro # < lat. quadrum (Viereck)
qua-dru # Variante zu quadro
raus
re
ré
red
rein
re-tro # lat. Adverb (zurück)
ri # ital.
rück
rum
sa-mo # russ. (selbst)
selb
se-mi
se-xa
sin # ital. für griech. syn
so
sou
sub
su-per
su-pra
sur # frz.
su # sub vor s
syn
tau-to # < griech. ταὐτό (dasselbe)
tel
te-le
te-ra # Einheitenvorsatz
te-tra
trans
tran # trans vor s
tra # trans vor d, i, j, n
tri
über
ul-tra
um
un
un-der
uni
un-ter
ur
ver
voll
von
vor
vorn
vor-ne
weg
wi-der
wie-der
will
wohl
zen-ti # Einheitenvorsatz
zer
zis
zu
zwie
-------------- nächster Teil --------------
af # ad vor f
ag # ad vor g
ak # ad vor k
ap # ad vor p
as # ad vor s
asym # asyn vor b, m, p
col # con vor l
com # con vor b, m, p
cor # con vor r
dif # dis vor f
ef # lat. ex vor f
em # griech. en vor b, m, p
il # lat. in vor l
im # lat. in vor b, m, p
ir # lat. in vor r
kol # kon vor l
kom # kon vor b, m, p
kor # kon vor r
oc # ob vor c
of # ob vor f
ok # ob vor k, z
op # ob vor p
os # ob vor t
sus # sub vor c, p, t, z
sym # syn vor b, m, p
-------------- nächster Teil --------------
ace-to
ade-no
ae-ro
afro
agri
agro
ägyp-to
all<er-go # < griech. ἄλλος (anders) + ἔργον (Werk); evtl. aufgrund stark verblasster Etymologie auch „al-ler-go“ wie im Duden
ami-no
am-nio
an-dro
an-gio
an-glo
an-tho
an-thro-po
aqua
ar-chaeo
ar-chäo
areo
aris-to;ari-sto
ar-te-rio
ar-thro
as-tro;astro
at-mo
au-dio
aus-tra-lo;au-stra-lo
aus-tro;au-stro
azoo
bak-te-rio
ba-ro
ben-zo
bi-blio
bio
blas-to;bla-sto
bü-ro
car-dio
che-mo
chi-ro
chlo-ro
cho-le # < griech. χολή (Galle)
cho-reo
chris-to;chri-sto
chro-mat
chro-mo
chro-no
ci-ne-ma-to
cya-no
cy-ber # < engl. cybernetics (Kybernetik) < griech. κυβερνητικός (die Kunst des Steuerns betreffend)
de-mo # < griech. δῆμος (Volk); auch als Kurzwort für „Demonstration“
den-dro
der-ma-to
des-mo
dik-ta
di-no
dis-ko
echi-no
eco
elas-to;ela-sto
elek-tro
em-bryo
en-do<kri-no
en-te-ro
en-to-mo
en<ze-pha-lo # < griech. ἐγκέφαλος (Gehirn) < ἐν (in) und κεφαλή (Kopf)
epi<de-mio
epis-te-mo;epi-ste-mo # < griech. ἐπιστήμη (Wissenschaft) < ἐπίσταμαι < ἐπί + ἵστημι, eigentl. also epi<ste-mo 
er-go
ery-thro
es-cha-to
eth-no
etho
ety-mo
fer-ro
fi-bro
fil-mo
fo-no
fo-to
fran-ko
fu-tu-ro
gal-va-no
ga-so
gas-tro;ga-stro
ge-nea
ge-no
geo
ge-ron-to
gi-gan-to
glos-so
glyp-to
gra-fo
gra-pho
gra-vi
gy-nä-ko
gy-no
gy-ro
ha-lo
hä-ma-to
hä-mo
he-li-co
he-li-ko
he-lio
hie-ro
hip-po
his-to;hi-sto
his-to-rio;hi-sto-rio
ho-ro
hy-dro
hy-gro
hym-no
hyp-no
ibe-ro
ideo
idio
iko-no
im<mu-no # < lat. immunis (abgabenfrei) < in + munia (Pflichten)
in-do
in<kli-no
in-ter<fe-ro
io-no
iso
ja-pa-no
ka-ko
ka-lei-do # < griech. καλός (schön) + εἶδος (Gestalt), eigentl. also kal<ei-do
kal-li # griech. καλλι- (schön)
ka-lo-ri
ka-pil-la-ro
kar-dio
kar-to
ki-ne-ma
ki-ne-ma-to
ki-ne-sio
kin # < griech. κινεῖν (bewegen)
klaus-tro;klau-stro
klep-to
kli-ma-to
ko-lo
ko-ni # < lat. cōnus (Kegel)
kos-mo
kra-nio
kri-mi-no
kris-tal-lo;kri-stal-lo
krypt
kryp-to
la-ryn-go
leg # < lat. legere (lesen)
leuk
leu-ko
le-xi-ko
lim-no
li-tho
lo-go
lym-pho
ma-gne-to
ma-kro
mam-mo
ma-no
ma-so
ma-tri
me-di
me-dia
me-dio
me-ga-lo
me-la-no
me-lo
me-nin-go
me-no
me-so
me-teo-ro
me-tho-do
me-tro
mi-cro # auch Einheitenvorsatz
mi-kro # auch Einheitenvorsatz
mi-ne-ra
mi-no
mi-to
mne-mo
mor-pho
mu-si-ko
mu-ta
my-co
myo
my-tho
na-no # auch Einheitenvorsatz
nar-ko
ne-kro
neo
neur # neuro vor Vokalen
neu-ro
ni-tro
nost # < griech. νόστος (Heimkehr)
no-wo # russ.
nu-kleo
nym-pho
oeso # oder „oe-so“?
öko
öko-no # verkürzt aus „öko<nomo“ in „Ökonometrie“, evtl. auch „öko<no“
oli-go
olig # oligo vor Vokal
olym-pio
on-ko
on-to
op-to
or-ga-ni
or-ni-tho
or-tho
öso
os-teo;osteo
os-zil-lo
ot # < griech. οὖς (Ohr), Gen. ὠτός
oxy # < griech. ὀξύς (scharf)
ozea-no
päd
pä-do
pa-lä
pa-läo
pa-lä<on-to # < griech. παλαιός (alt) + ὤν (Seiendes), Gen. ὄντος
par<al-le-lo
pa-tho
pa-tri
pe-re # russ.
pe-tro
phä-no
phä-no-me-no
phar-ma-ko
phil
phi-lo
pho-no
pho-to
phra-seo
phyl-lo
phy-lo
phy-sio
phy-to
pie-zo
pi-ko
pik-to
pi-na-ko
plas-mo
pleis-to;plei-sto
pneu-mo
po-eto # Trennung „poe-to“ inakzeptabel
po-li # < griech. πόλις (Stadt)
po-li-to
pon-de-ro
por-no
po-ten-tio
pra-xeo
pres-by
pro
pseud
pseu-do
psy-cho
pye-lo
pyo
py-ro
ra-dio
rä-to
rheu-ma-to
rhi-no
rhod # < griech. ῥόδον (Rose)
ri-bo
rif # in Arzneimitteln, Herkunft unklar
sa-do
sa-kro
sar-ko
sa-xo
schi-zo
sci-en-to
seis-mo
se-ma # < griech. σῆμα (Zeichen)
ser-bo
si-no
skia # < griech. σκιά (Schatten)
so-zio
spek-tro
sphä-ro
sta-phy-lo
ste-ga-no
ste-no # < griech. στενός (eng, schmal); auch als Kurzwort für „Stenographie“
ste-reo # < griech. στερεός (fest, räumlich); auch als Kurzwort für „Stereophonie“
ste-tho
stra-to
strep-to
stro-bo
szin-ti # < lat. scintilla (Funke)
ta-cho # auch als Kurzwort für „Tachometer“
ta-xa
ta-xo
tech-ni
tech-no
te-leo # < griech. τέλος (Ende, Ziel), Wortstamm τελε-
te-lo # gleiche Herkunft wie „teleo“
ter-mi-no
theo
ther-mo
throm-bo
to-mo
to-po
to-xi-ko
to-xo
tra-gi
tri<go-no
tro-po
tur-bo
ty-po
uro
vi-bra
vi-deo
vi-no
vi-ro
vul-ka-no
xantho # < griech. ξανθός (gelb)
xanth # xantho vor Vorkalen
xe-no
xe-ro
xy-lo
zen-tri
zeo
zoo
zy-klo
zy-to


Mehr Informationen über die Mailingliste Trennmuster