[Trennmuster] Alternative Trennmusterverwendung mit LuaTeX

Do Okt 1 02:45:29 CEST 2020

Am 30.09.20 um 15:36 schrieb Keno Wehr:
> Am 26.09.20 um 16:48 schrieb Stephan Hennig:
>> Ich würde es zunächst etwas weniger ambitioniert angehen.  Wenn für alle
>> Probleme isolierte, prototypische Lösungen bestehen, kann man darüber
>> nachdenken, wie man die dann zusammenbringt.
> 
> Ja, aber für die Spezialtrennungen existiert ja schon ein Prototyp und 
> bei Prototypen will ich nicht stehenbleiben.
> Früher oder später wird man die gewichteten Trennungen mit den 
> Spezialtrennungen zusammenbringen müssen. Ich vermute sehr, dass 
> unabhängige Pakete aufgrund der Exklusivität des hyphentate-callbacks 
> nicht funktionieren würden; es muss einen gemeinsamen Code für beides geben.

Das stimmt zwar.  Mit Prototyp meine ich aber wie zuletzt schon
angedeutet nicht nur die Beispiele wie sie vorhanden sind, sondern
vollwertige, anwenderfreundliche LaTeX-Pakete.  Mit denen, wie gesagt,
das Aufbrechen von Dreifachligaturen gesteuert werden kann, oder welches
auch sprachübergreifend funktioniert.  Das heißt, bei der Durchsicht der
Knotenliste muss darauf geachtet werden, in welcher Sprache ein Wort
vorliegt und gegebenenfalls müssen die richtigen Muster darauf
angewendet werden.  Im Falle der Ligaturen, sollten die ZWNJ nach der
Ligaturbildung wieder herausgefischt werden?  Landen die in der
PDF-Ausgabe?  Wann wäre der geeignete Zeitpunkt zum Herausfischen?

Die Interpunktion verschiedener Sprachen wäre auch richtig zu behandeln.
 Ich meine, einmal gelesen zu haben, im Französischen wäre das Apostroph
teil eines Wortes und auch Teil der Muster.  So etwas muss (so es denn
stimmt) bei der Erkennung von Wörtern berücksichtigt werden.  Wird es
das momentan?  Unter
<URL:https://codeberg.org/sh2d/padrinoma/src/commit/44f974821e39830a203a9934edbbc70db2ad5323/lua-modules/TODO.pdnm_nl_manipulation.md>
gehe ich noch auf andere Sachen ein.

Wir haben noch viel zu wenig Erfahrung mit den Lösungsansätzen, um zu
sehen, wo deren Schwächen sind.  Ich würde gern vermeiden, dass wir
jetzt irgendeine integrierte Implementierung zusammendengeln und in drei
Monaten kommt jemand, der eine sprachspezifische Eigenheit nicht
abgedeckt sieht, woraufhin wir uns fragen, wie man das in den
verquickten Code noch reinquetschen kann.  Wie verhält es sich zum
Beispiel mit bidirektionalem Text?  Funktioniert damit die Worterkennung
derzeit?  Muss das Patternmatching dafür angepasst werden?

Ich denke, es ist keine vertane Zeit, zunächst einzelne, von Nutzern
leicht zu verwendende (La)TeX-Pakete zu entwickeln und auszuprobieren,
wie die jeweilige Anwenderschnittstellen aussehen können.  Ja, schnelle
Lösungen sind wünschenswert, damit Rückmeldungen von Anwendern sowie von
Sprachpflegern anderer Sprachen kommen.  Aber schnelle Lösungen sind ja
machbar.  Die existierenden Beispiele geben doch einen guten Anfang ab.
Ich schlage vor, für eines der Probleme (i) Ligaturaufbruch, (ii)
Spezialtrennungen, (iii) rundes/langes s ein neues Repositorium an- und
dann loszulegen.

Ich würde mich dabei vorzugsweise um Code kümmern, der wenig Berührung
mit TeX und LuaTeX hat.  Was die Behandlung der Knotenlisten angeht oder
die (La)TeX-Schnittstellen, das würde ich gern anderen überlassen.

Die gewichtete Trennung habe ich oben nicht erwähnt, da dazu noch die
Anwendung mehrerer Muster in Padrinoma implementiert werden muss.  Ich
werde mich zeitnah darum kümmern, das ist, glaube ich, nicht so
aufwendig.  Zunächst werde ich mich aber um einen CTAN-Upload kümmern.

Keno, welche Art der Koordination/Kuration der verschiedensten Muster
schwebt dir denn mittel- oder langfristig vor?  Alles innerhalb von
Polyglossia?

Viele Grüße,
Stephan Hennig