[Trennmuster] Wortlisten bei Unicode?

Werner LEMBERG wl at gnu.org
Sa Okt 3 18:53:26 CEST 2015


Hallo Sascha!


> From: Sascha Brawer <sascha at brawer.ch>
> Subject: Wortlisten bei Unicode?
> Date: Thu, 1 Oct 2015 19:05:30 +0200
>
> was würdest Du davon halten, wenn Unicode.org Wortlisten diverser
> Sprachen führen würde?  Falls Du die Idee gut findest: könntest Du
> Dir allenfalls vorstellen, Deine deutsche Wortliste an Unicode zu
> übertragen?

Ich weiß nicht genau, was Du mit »übertragen« meinst.  Daß eine Kopie
der Liste (oder etwas darauf aufbauendes, siehe unten) auf unicode.org
zu finden ist, wäre mir durchaus recht – erhöht es doch die
Sichtbarkeit unserer Arbeit beträchtlich!

> Mark Davis <https://en.wikipedia.org/wiki/Mark_Davis_(Unicode)> und
> ich haben uns mal ein paar Gedanken in diese Richtung gemacht.  Der
> Anlass war Google, wo diverse Produkte gerne ihre zur Zeit doch eher
> grausige Typografie verbessern möchten und deswegen nach
> Trennwörterbüchern in ~80 Sprachen gesucht haben; für die meisten
> Sprachen findet man da nicht wahnsinnig viel.

Hehe.

> Wir würden die Wortlisten allerdings nicht bei Google ansiedeln
> wollen, sondern bei Unicode; konkret auf cldr.unicode.org.  Unicode
> verwendet für die CLDR-Daten einen XML-Dialekt namens LDML.  Wir
> würden die Spezifikation [http://unicode.org/reports/tr35/]
> entsprechend erweitern.

Da habe ich nichts dagegen.

> Was würdest Du vom folgenden Format halten?  Ein bisschen viel
> Boilerplate, liegt aber an der LDML-Struktur.  Ein Vorteil von XML
> ist, dass wir es später mit weiteren Elementen (z.B. Wortart oder
> Aussprache) ergänzen könnten.
>
> <ldml>
>   <!-- notwendig wegen LDML -->
>   <identity>
>     <version number="11914"/>
>     <language type="de"/>
>   </identity>
>
>   <terms>
>     <term>
>       <t>Altersteilzeitregelung</t>
>       <hyph>Al•ters••teil•zeit•••re•ge•lung</hyph>
>     </term>
>
>     <!-- ungünstige Trennstellen -->
>     <term>
>       <t>Analphabet</t>
>       <hyph>An••al◦pha•bet</hyph>
>     </term>
>
>     <!-- Unterschiedliche Schweibweise in alter und neuer Rechtschreibung -->
>     <!-- analog mit de-CH, de-CH-1904 etc. -->
>     <term lang="de-1904">
>       <t>Abfallager</t>
>       <hyph>Ab•fa{ll|ll••l}a•ger</hyph>
>     </term>
>     <term lang="de-1996">
>       <t>Abfalllager</t>
>       <hyph>Ab•fall••la•ger</hyph>
>     </term>
>
>     <!-- ck/kk -->
>     <term>
>       <t>Blutzuckerspiegel</t>
>       <hyph lang="de-1996">Blut••zu•cker•••spie•gel</hyph>
>       <hyph lang="de-1904">Blut••zu{ck|k•k}er•••spie•gel</hyph>
>     </term>
>
>     <!-- mehrdeutige Trennungen -->
>     <term>
>       <t>Kindersatz</t>
>       <hyph>Kind•er◦satz</hyph>
>     </term>
>     <term>
>       <t>Kindersatz</t>
>       <hyph>Kind◦er•satz</hyph>
>     </term>
>   </terms>

Schaut gut aus!  Allerdings werde ich in diesem Format garantiert nie
direkt arbeiten :-) Es muß also jemand einen Konverter schreiben (am
besten in beide Richtungen zur Validierung)...

> An die Zeichen ◦ und • haben wir deswegen gedacht, weil sie keine
> Wortbestandteile sind; dadurch könnten wir auch Einträge wie
> "Auf-und-Ab-Bewegung" erfassen.

Hmm.  Das Ziel unserer Wortliste ist die Wort*trennung*, und Einträge
mit Bindestrich ergeben da gar keinen Sinn.  Aber ich sehe die
prinzipielle Idee dahinter, und bei manchen Sprachen mag's ja durchaus
sinnvoll sein.

> Die lang-Tags wären Sprachcodes gemäss IETF BCP47, wie bei HTML und XML.
>
> Deine Wortliste unterscheidet ja auch Affixgrenzen und Wortfugen.
> Auf den ersten Blick war mir nicht klar, ob die Unterscheidung
> wirklich nötig ist, und es macht das Format ja doch deutlich
> komplizierter.  Macht es typographisch einen Unterschied, welche Art
> von Grenze es ist?  Vielleicht beim Fraktursatz?

Ja.  Es erleichtert auch die Arbeit im Generellen an der Liste, weil
die »>«- und »<»-Marker sich so schön abheben und man daher ganze
Klassen von Wörtern systematisch erfassen kann.

> Weiterhin haben wir im obigen Vorschlag nur eine Stufe von
> ungünstiger Trennungen benutzt, wiederum wegen der Einfachheit.  Was
> denkst Du hierzu?  Lohnt sich der (Erklärungs-)Aufwand für mehrere
> Stufen der Ungünstigkeit?

Meiner Meinung nach ja – im Bedarfsfall kann die zusätzliche
Information einfach ignoriert werden, aber wer's braucht, hat's dann
direkt zur Verfügung.

> So, das ist eine lange Mail geworden.  Was hältst Du allgemein
> davon, Wortlisten für möglichst viele Sprachen bei Unicode zu haben
> und dort unter dieselbe (sehr freie) Lizenz wie die übrigen
> Unicode-Daten zu stellen?

Das ist generell eine gute Idee!  Wie oben schon erwähnt, ist unsere
Wortliste aber zum Trennen gedacht; an einer allgemeineren Liste
arbeitet beispielsweise Jan Schreiber:

  http://sourceforge.net/projects/germandict/

> Könntest Du Dir vorstellen, die deutsche Wortliste an Unicode zu
> geben?  Und, vor allem: Würde es Dich allenfalls interessieren, bei
> dieser Geschichte mitzumachen, und sei es auch nur zum Mitdenken?

Wie schon gesagt, definiere bitte »geben«.  Und ja, ich denke mal, die
meisten auf dieser Liste sind durchaus daran interessiert!  Vielleicht
nicht unbedingt für Khmer oder Swahili, aber auf jeden Fall, was
Deutsch betrifft :-)


    Werner

> Herzliche Grüsse aus Bern,
>
> — Sascha




Mehr Informationen über die Mailingliste Trennmuster