[Trennmuster] Woerter mit zwei und drei Buchstaben
Guenter Milde
milde at users.sf.net
Do Jul 24 20:56:37 CEST 2014
On 24.07.14, Werner LEMBERG wrote:
> > Nach meiner Vorstellung gibt es überhaupt keine Sonderbehandlungen.
> > /Alle/ Lang-s werden über spezielle Lang-s-Muster erkannt. Diese
> > Muster sind /nicht/ Haupt- oder Fugen-Trennstellen-Muster, sondern
> > werden aus einer Liste von Wörtern wie
> >
> > Aus-schuss
> > Wa-s-ser
> > u-sw
> >
> > erstellt.
> Huch! Diese Syntax will ich aber nicht in unserer Wortliste sehen.
Kein Problem, das ist für die aus der Lang-S-Wortliste generierte
patgen-Eingabe
> > Das Wissen um die Lang-s-Regeln würde ich nicht erst in TeX
> > anwenden, sondern schon bei der Erzeugung von Patgens Eingabe-Liste.
> Dagegen spricht ja nichts! Günters Script erstellt ja genau so etwas,
> indem »s« durch »ſ« ersetzt wird. Das kann man, wenn man unbedingt
> muß, in Deine vorgeschlagene Form konvertieren.
Gegenwärtig habe ich noch einen Teil der Ausnahmen im Anwendungsskript:
# ſ steht auch am Ende von Abkürzungen, wenn es im abgekürzten Wort steht
# (Abſ. - Abſatz/Abſender, (de)creſc. - (de)creſcendo, daſ. - daſelbst ...)
# s steht auch in der Mitte von Abkürzungen, wenn es im abgekürzten Wort steht
# (Ausg. - Ausgang/Ausgabe, Hrsg. - Herausgeber, ...)
# ::
exceptions = (u'Abſ', # Abſatz/Abſender
u'Ausg', # Aus<gabe
u'beſ', # beſonders
u'coſ', # Ko<ſinus
u'coſec', # Ko<ſekans
# u'daſ', # da<ſelbst (nicht von Artikel "das" zu unterscheiden!)
u'desgl', # des<gleichen
u'Diſſ', # Diſſertation
u'hrsg', # herausgegeben
u'Hrsg', # Herausgeber
u'Hſ', # Handschrift
u'Maſſ', # Maſſachusetts
# u'Miſſ', # Miſſiſippi (nicht von Miſs (Frln.) zu unterscheiden)
# TODO: N-Z
)
Diese Ausnahmen können aber auch entweder von Extraktions/Wandleskript der
patgen-Eingabe hinzugefügt oder als "hyphenlist" dem TeX-Trennalgorithmus
übergeben werden.
> > Auch bei der Ligaturbehandlung bin ich dafür, alle Intelligenz vor
> > Patgen und in TeX lediglich Ligaturmuster anzuwenden.
...
> Also Ligaturen haben *gar nichts* in unserer Wortliste verloren! Was
> unsere Liste hergibt, sind Stellen, wo *keine* Ligatur angewendet
> werden soll. Der Rest ist fontabhängig, punktum.
Auch hier geht es darum, wie wir die Informationen der Wortliste für eine
Anwendung aufbereiten wollen.
Änderungen für die Wortliste könnten sich höchstens (und nur nach Konsens)
ergeben, wenn es sich herausstellt, dass die gegenwärtige Auszeichnung für
die Erkennung der Stellen wo Ligaturen aufgebrochen werden sollen nicht
ausreicht und es Synergieeffekte zur Bestimmung günstiger Trennstellen gibt
(eingedenk der Tatsache, daß sowohl günstige Trennungen als auch nicht
zugelassene Ligierung an den gleichen "Sollbruchstellen" liegen).
Günter
Mehr Informationen über die Mailingliste Trennmuster