[Trennmuster] Wortlisten bei Unicode?

Guenter Milde milde at users.sf.net
Di Okt 6 20:25:55 CEST 2015


Liebe Trennmustler,

On  3.10.15, Werner LEMBERG wrote:
> > From: Sascha Brawer <sascha at brawer.ch>

> > was würdest Du davon halten, wenn Unicode.org Wortlisten diverser
> > Sprachen führen würde?  Falls Du die Idee gut findest: könntest Du
> > Dir allenfalls vorstellen, Deine deutsche Wortliste an Unicode zu
> > übertragen?

> Ich weiß nicht genau, was Du mit »übertragen« meinst.  Daß eine Kopie
> der Liste (oder etwas darauf aufbauendes, siehe unten) auf unicode.org
> zu finden ist, wäre mir durchaus recht – erhöht es doch die
> Sichtbarkeit unserer Arbeit beträchtlich!

Sehe ich auch so.

...

> > An die Zeichen ◦ und • haben wir deswegen gedacht, weil sie keine
> > Wortbestandteile sind; dadurch könnten wir auch Einträge wie
> > "Auf-und-Ab-Bewegung" erfassen.

> Hmm.  Das Ziel unserer Wortliste ist die Wort*trennung*, und Einträge
> mit Bindestrich ergeben da gar keinen Sinn.  Aber ich sehe die
> prinzipielle Idee dahinter, und bei manchen Sprachen mag's ja durchaus
> sinnvoll sein.

Generell gibt es bei LaTeX (mit Babel-de) ja die Unterscheidung zwischen
"Bindestrich der weitere Trennungen unterbindet" und "Bindestrich der
weitere Trennungen zuläßt", insofern ist das evt. auch für unseren
Anwenderkreis von Interesse.

(Allerdings finde ich es deutlich problematischer, daß meine
Rechtschreibprüfung bei "Arbeits- und Organisationspsychologie" (o.ä.)
aussteigt, weil "Arbeits" geprüft (und als falsch erkannt) wird. Aber das
nur nebenbei.)


> > Die lang-Tags wären Sprachcodes gemäss IETF BCP47, wie bei HTML und XML.

Da bin ich ja schon länger dafür...


> > Deine Wortliste unterscheidet ja auch Affixgrenzen und Wortfugen.
> > Auf den ersten Blick war mir nicht klar, ob die Unterscheidung
> > wirklich nötig ist, und es macht das Format ja doch deutlich
> > komplizierter.  Macht es typographisch einen Unterschied, welche Art
> > von Grenze es ist?  Vielleicht beim Fraktursatz?

> Ja.  Es erleichtert auch die Arbeit im Generellen an der Liste, weil
> die »>«- und »<»-Marker sich so schön abheben und man daher ganze
> Klassen von Wörtern systematisch erfassen kann.

Ein Grund für die "Kategorisierung" anstelle einer Wichtung ist auch, daß
wir hier ein "objektives" Kriterium haben, wohingegen die Entscheidung wie
"gut" eine Trennstelle ist deutlich schwammiger ist. 

Die Kennzeichnung der Morphemgrenzen (wenn sie mit einer Trennstelle
zusammenfallen) erlaubt auch zusätzliche Konsistenzprüfungen und
Fehlersuchen.

Es gibt außerdem die Regel, daß über Morphemgrenzen keine Ligaturen gesetzt
werden sollen.



> > Weiterhin haben wir im obigen Vorschlag nur eine Stufe von
> > ungünstiger Trennungen benutzt, wiederum wegen der Einfachheit.  Was
> > denkst Du hierzu?  Lohnt sich der (Erklärungs-)Aufwand für mehrere
> > Stufen der Ungünstigkeit?

> Meiner Meinung nach ja – im Bedarfsfall kann die zusätzliche
> Information einfach ignoriert werden, aber wer's braucht, hat's dann
> direkt zur Verfügung.

(Allerdings ist die Unterteilung in "Stufen der Ungunst" zur Zeit noch
sehr unvollständig.)


viele Grüße

Günter



Mehr Informationen über die Mailingliste Trennmuster