[Trennmuster] Drtittheil

Stephan Hennig mailing_list at arcor.de
Di Jun 10 18:24:06 CEST 2014


Am 10.06.2014 10:43, schrieb Guenter Milde:
> On  9.06.14, Stephan Hennig wrote:
>> Am 09.06.2014 22:43, schrieb Georg Pfeiffer:
> 
>> Weil Spezialtrennungen in Feld 2 nicht zulässig sind.  Mit
> 
>>   Drittheil;-2-;Dri{tt/tt=t}heil;-4-
> 
>> müsste es gehen. :-)
> 
> Wobei bei pre-1901 ja Spalte 2 eben pre-1901 ist und somit anstelle von
> "Sprachspalten" in dieser Datei vielleicht eher eine Regel: "erlaube
> Spezialtrennungen in Spalte 2 wenn Dateiname=pre-1901" für validate.lua
> sinnvoller ist. (Es sei denn, wir wollen auch historische schweizer Texte
> und Versalschreibungen aufnehmen.)

Hm, validate.lua wurde für die Prüfung "der einen Wortliste" geschaffen.
 Das Skript operiert jedoch auf der Standardeingabe, sieht also keine
Dateinamen.  Wenn die Liste pre-1901 die für die Wortliste vorhandenen
Werkzeuge nutzt, wird das zunächst einmal durch zusätzlichen Aufwand in
der Kodierung von Wörtern erkauft.

Es wäre allerdings möglich, einen Kommandozeilenschalter
bereitzustellen, der die Prüfung auf Spezialtrennungen in unzulässigen
Feldern außer Kraft setzt.  Falls es um das Zerlegen der Liste geht,
skripte/lua/helper_records.lua enthält bereits eine Funktion split(),
die einen Datensatz zerlegt und das Ergebnis als Tabelle zurückliefert.
 (Wenn ich mich recht erinnere sind belegte Felder bereits normalisiert,
also Patgen-tauglich.)  Leere Felder erhalten den Wert 'false', so dass
man nicht auf Strings wie "-2-" etc. prüfen muss, sondern so etwas
reicht wie

  for zeile in io.lines() do
    local feld = helper_records.split(zeile)
    local trad_wort = feld[2] or feld[3]
    io.write(trad_wort, '\n')
  end

Oder so ähnlich.

Viele Grüße,
Stephan Hennig



Mehr Informationen über die Mailingliste Trennmuster