[Trennmuster] Woerter mit zwei und drei Buchstaben

Guenter Milde milde at users.sf.net
Di Jul 22 00:17:24 CEST 2014


On 21.07.14, Stephan Hennig wrote:
> Am 21.07.2014 02:49, schrieb Werner LEMBERG:

> >>   raus:   ADAC, BRD, EDV, MESZ, UNESCO
> > 
> > Dreibuchstabiges gehört generell nicht in die Liste, bis auf Wörter
> > mit »ß« und »s« (was ich bis jetzt nicht gewußt habe :-) Aber »ADAC«,
> > »UNESCO« und »MESZ« *wird* vom Trennalgorithmus erfaßt!  Daher muß es
> > drinnen bleiben.

> Wie "erfasst"?  In TeX werden solche Wörter gewöhnlich logisch
> ausgezeichnet. 

Wer sagt das? Selbst wenn es die reine Lehre verlangen mag, ist im täglichen
Massensatz und dem morgen abzugebenden Bericht "Tippökonomie" üblich.

> In die Auszeichnung für Abkürzungen gehört eine \mbox
> und gut ist.  Darüberhinaus ist es für den Programmierer nahezu trivial,
> Wörter von der Silbentrennung auszunehmen, die ausschließlich aus
> Großbuchstaben bestehen.

Aber in 8-bit TeX ist das eben nicht so.

Es ist aber noch einfacher, häufig vorkommenden Abkürzungen mit mehr als
4 Buchstaben in der Liste zu lassen, auch wenn sie in all-caps
geschrieben sind.


> Neben Wörtern mit ß und s werden auch solche mit möglichen Ligaturen
> benötigt, wie 'ich', 'Ach', 'Eck', 'ff' (S. 99 ff.), 'fl' (Abk. z.B. von
> flüssig), 'öff' (öffentlich), 'eff' (effektiv). 

Ein TeX-Ligatur-Paket (ob LuaTeX oder Präprozessor benötigt nur die
Wörter (oder pattern aus Wörtern), wo Ligaturen *verhindert* werden
müssen. Im Regelfall sind dies die Wörter mit Haupttrennstellen zwischen
den "ligierenden" Buchstabenkombinationen (Auf<lage, höf>lich, Haus=tür).
Abkürzungen (insbes. kürzere) sind Ausnahmen von dieser Regel.

> Der Zweck der Wortliste ist inzwischen nicht mehr nur auf die
> Silbentrennung gerichtet, sondern soll auch die Erkennung von Lang-
> bzw. Rund-s ermöglichen, die Behandlung von Spezialtrennungen,
> perspektivisch auch von Ligaturen (siehe auch meine später folgende
> Antwort an Günter).  

Diese sind sozusagen ein "Nebenprodukt" der Trennliste, da (nach
Trennstellenkategorisierung) die Haupttrennstellen aus der Liste oder den
Pattern bestimmt werden können. 

Das heißt aber nicht, daß wir die Informationen für Lang-S und
Ligaturvermeidung welche sich *nicht* aus den Haupttrennstellen ableiten
lassen (Ausnahmen und Abkürzungen) in die Trennmusterliste stecken müssen.

> Wer weiß, welche Ideen es sonst noch gibt.  Für
> die Rechtschreibprüfung taugt die Liste erstaunlicherweise derzeit aber
> nicht.  Es erscheint mir sinnvoll, den überschaubaren Schwung von
> kurzen Wörtern und Abkürzungen mit zwei und drei Buchstaben in die
> Liste aufzunehmen, ausgenommen Abkürzungen aus nur Großbuchstaben.
> Ohne ist die Liste ganz offensichtlich nicht "vollständig".  So erklärt
> sich der Vorschlag, 'ab', 'auf', 'in', 'Fr', 'Hdn' etc. aufzunehmen.

Unix-Philosophie ist, für jede Aufgabe ein angepaßtes Werkzeug zu
verwenden. Das hat sich auch anderwärts bewährt. Für die
Rechtschreibprüfung gibt es die *spell Wörterbücher. Besser als ein
Konkurenzprojekt ist gegenseitiger Abgleich.

Für manche Aufgaben kann es allerdings sinnvoll sein, eine
selbstverwaltete Liste der kurzen Wörter bereit zu haben. Da diese keine
Trennstellen aufweisen schlage ich vor, als Ergänzung zur Trennliste eine
simple Wortliste von Wörtern mit Länge<4 in das Repositorium aufzunehmen.

Alternativ kann man natürlich auch sagen: "die <~ 600 Einträge machen den
Hasen nicht fett, also rein in die Trennliste selbst wenn sie nie
getrennt werden und daher immer Schlüssel=getrenntes Wort ist." Für
"normale" patgen-Läufe können ja leicht alle kurzen Wörter wieder
aussortiert werden.

Günter



Mehr Informationen über die Mailingliste Trennmuster