[Trennmuster] Hel-den-that gefordert

Di Jul 30 01:06:47 CEST 2013

Am 29.07.2013 16:29, schrieb Georg Pfeiffer:

> Wie aufwendig wäre es, eine Trennmusterliste »pre-1903« oder
> »reallx|very old german« oder so zu erstellen. Ich glaube, daß
> letztemal, da das in Rede stand, hieß es, das müsse nur mal jemand
> machen. Ich traue mir das nicht zu, aber wenn jemand diese Liste
> erstellte, wollte ich wohl mal ab und an etwas beysteuern, gerne auch
> direkt im git.

Anbei sind einige Lua-Skripten, mit welchen der Google-Books-Korpus der
1-Gramme von 2009 in eine Liste von Wörtern (wahlweise plus Häufigkeit
oder Häufigkeitsklasse) gewandelt werden kann.  (Mit dem
Google-Books-Korpus von 2012 sollte es auch klappen, das ist aber nicht
ausführlich getestet.)  Die Skripten ermöglichen es, Filter in Form
einer Funktion anzuwenden, mit welchen sich die Ausgabe zum Beispiel auf
Wörter eines gewissen Zeitraums beschränken lässt (mehr dazu weiter unten).

Die Google-Books-Korpora können unter
<URL:http://storage.googleapis.com/books/ngrams/books/datasetsv2.html>
heruntergeladen werden.  Es werden jeweils die Dateien der deutschen
1-Gramme benötigt.  Achtung: die Korpora sind ca. 1 GB bzw. 4 GB groß.

Zum Umwandeln des 2009er Korpus ist folgende Kommandozeile auszuführen:

  texlua process-corpus-gbc2009.lua Pfad/zu/den/Korpus-Dateien > 2009.nf

Im Skript process-corpus-gbc2009.lua können innerhalb der Methode
handler_prototype.new einige Einstellungen vorgenommen werden
(Dokumentation siehe dort).  Zum Beispiel kann hier das Ausgabeformat
festgelegt werden (output_format).  Ebenso können Filter definiert
werden.  Ein Beispielfilter, mit dessen Hilfe nur Wörter berücksichtigt
werden, die im 18. und 19. Jahrhundert gedruckt wurden, würde etwa so
aussehen:

   record_filter = function(n,y,m,p,v)
      if y >= 1700 and y < 1900 then
         return true
      end
   end,

(Das abschließende Komma ist notwendig.)

Das Ergebnis wird leider keine hübsche Liste veralteten Wortschatzes,
sondern auch viel Müll enthalten.  Aber ich hoffe, es hilft schon mal
weiter.

Viele Grüße,
Stephan Hennig

-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : corpora.zip
Dateityp    : application/x-zip-compressed
Dateigröße  : 34056 bytes
Beschreibung: nicht verfügbar
URL         : <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20130730/efd445ad/attachment.bin>