FAUST: Du tieser Ball – Spielen mit neuronalen Netzwerken #ai #ki

Textspielereien mit neuronalen Netzen

Inspiriert von dem zweiten Teil der Serie Machine Learning is Fun! habe ich mir char-rnn heruntergeladen und spiele gerade ein wenig damit herum.

Dann habe ich mal nach Goethes Faust gesucht und gefunden. Damit habe ich mit ein paar unterschiedlichen Einstellungen das Netzwerk trainiert und Texte erstellt. Die sehen schon ganz interessant aus:

Haben grab ich Mosesgleiche
Lauf sich gältigen,
Glückte mich im Platz.
Auf ihr sich einhim Massen stägen.
Nach sich sich einen Arand freundlich Nacht,
Ein Ratur und Dirntunt klarslich

Klar, Robogoethe ist jetzt eher mit vogonischer Dichtkunst zu verwechseln:

Oh zerfrettelter Grunzwanzling, dein Harngedränge ist für mich
Wie Schnatterfleck auf Bienenstich.
Grupp, ich beschwöre dich mein punzig Turteldrom.
Und drängel reifig mich mit krinklen Bindelwördeln
Denn sonst werd ich dich rändern in deine Gobberwarzen
Mit meinem Börgelkranze, wart’s nur ab!

Allerdings: Faust (der Tragödie erster und zweiter Teil) ist ungefähr ein Megabyte Goethe, und das wird auf ca. 950kb Training sowie 50kb Validierung aufgeteilt. Könnte Robogoethe besser werden, wenn wir ihn nur mehr Goethe trainieren lassen? Das versuche ich gerade auf andere Art und Weise herauszufinden. Ich habe mal ein wenig SAS-Code in das Netz gesteckt. Erste Generationen sehen schon ganz gut aus:

%DOYP = cnr, _f &z5 &trim(monat,hsympord()";
     SASCH_EQ '1000';
  FORMAT jot
      rename=(drop btg,oe_d = TMP_ART_BZ IN (oe

… für hinreichend kleine Erwartungen von ganz gut. Allerdings ist das noch der Stand von 2,8% des gesamten Trainingsvorganges.

Ich habe schon häufiger gelesen, dass Firmen wie Amazon, Google, facebook und Microsoft unsere Daten haben wollen, um damit zu arbeiten – aber nun beginne ich zu verstehen.

Solche Netze brauchen Daten. Viele Daten.

Außerdem habe ich überlegt, was man da noch so als Trainings- und Validierungsset vorgeben könnte. Erst dachte ich an Jugendsprache, dann an den Grundwortschatz (der laut Mahnern abnimmt – aber der Link, den ich gefunden habe, geht zur Süddeutschen, und die hat einen Adblock-Block – wird also nicht verlinkt). Von da ist es kein weiter Schritt mehr zu

erotischen Geschichten

die überall im Netz zu haben sind, üblicherweise nicht mit vielen störenden Metadaten (Überschriften, Zahlen, etc.) daherkommen, und hüstel meist auch keinen großen Wortschatz umsetzen.

Oh, eine neue Generation SAS-Generator ist fertig:

 /*———————————————————-*/
/* Name: EndeNS;                                        */
Param1Verarbeiten_DUM =  data_type;
data tes_kinw;
set = &lib..&outdatacet
data=tmp000.bestrj + GHWD22_IZK_BEID (&NAME, %PLM_TL_NR   ;
rc=put(Slan, z_rapame);
%if &&SYSLAST = %do notol anrEre %then %do;
%let rc cfetTable2,

Das sind übrigens die nicht von Kommentaren bereinigten Sourcen, das Netzwerk lernt jedenfalls schon einmal zu kommentieren.