Manchen mögen solche Überlegungen wie Science Fiction vorkommen, tatsächlich aber kommen wir diesem Zustand, dieser Singularität, immer näher:
„Der prognostizierte Zeitpunkt der Singularität wurde mehrfach um Jahrzehnte in die Zukunft verschoben. Allerdings sei wahrscheinlich, dass sie überraschend eintritt, womöglich selbst für die an der Entwicklung Beteiligten“ (wiki)
Ein Verwandter von mir ist begeisterter Go-Spieler, der mir erzählte, daß es noch vor wenigen Jahren, da gab es schon längst Schachcomputer, die die besten Spieler der Welt schlagen konnten, in der Go-Community als unmöglich galt, daß Computer jemals die größten menschlichen Go-Meister würden schlagen können, weil man Go eben nicht wie Schach durch einen Speicher mit Abertausenden Spielzügen und brute-force-Rechenoperationen gewinnen kann, sondern Kreativität benötigt werde. Er war ziemlich ernüchtert und ein bißchen entsetzt, als letztes Jahr einer der größten menschlichen Go-Meister deutlich von einem Computer geschlagen wurde (das sahen sich übrigens 200 Millionen Menschen an – um sich einmal zu verdeutlichen, wie beliebt Go, das in Deutschland nicht viele kennen, weltweit ist). Das Programm hieß „Alpha Go Lee“ und werkelte damals noch mit 48 TPUs.
Inzwischen gab es einen weiteren erstaunlichen Entwicklungsschritt, genannt „Alpha Go Zero“: Ein Problem bei KIs ist, daß es sich dabei oft um spezialisierte Systeme handelt, die mit enormen Mengen in Datensätze konvertierter menschlicher Erfahrung hantieren. Für manche Probleme ist aber menschliches Wissen zu teuer, zu unzuverlässig oder schlicht nicht verfügbar. Daher sucht man in der KI-Forschung schon lange nach einem Weg, diesen Schritt zu umgehen und Algorithmen zu entwickeln, die übermenschliche Leistungen erbringen können, ohne auf menschlichen Input angewiesen zu sein, mit anderen Worten, die sich die zu erlernenden Fähigkeiten selbst beibringen und perfektionieren. Und wie sie kürzlich in Nature publiziert haben [1], ist seinen Erschaffern genau das mit Alpha Go Zero gelungen:
Alpha Go Zero lernt Go von Null ohne auf die Datenbank mit Tausenden eingespeicherter von Menschen gespielter Spiele zuzugreifen, die noch seine Vorgänger nutzten, nur indem es mit sich selber spielt, aus seinen Fehlern lernt und stetig seine Strategien verbesser. Es beginnt mit völlig zufälligen, strategiefreien Spielen, die es aber viel schneller ausführen kann, als jeder Mensch, so daß es in kürzester Zeit zu einer enormen Spielpraxis gelangen kann. Schon nach drei Tagen war Alpha Go Zero so in der Lage, Alpha Go Lee zu vernichten (100 : 0 Siege in 100 Spielen), nach 21 Tagen schlug es die Folgeversion von Alpha Go Lee, die Alpha Go Master genannt wurde und die erst dieses Jahr die 60 Top-Profilspieler einschl. des Weltmeisters Ke Jie in 3 von 3 Spielen schlug. Nach 40 Tagen dann übertraf Alpha Go Zero alle anderen Versionen von Alpha Go und wurde zum besten Go-Spieler der Welt und zwar komplett ohne äußere Hilfe und ohne historische Spieldaten, nur, indem es mit sich selbst gespielt hatte!
Dieser Prozess beruht auf einer Form des maschinellen Lernens, der als „Verstärkungslernen“ bezeichnet wird und mit einem KNN beginnt, das keine Ahnung von Go hat, nur die Spielregeln sind einprogrammiert. Dann beginnt das System, gegen sich selbst zu spielen und kombiniert das KNN mit einem leistungsfähigen Suchalgorithmus. Während es spielt, wird das KNN ständig angepasst und aktualisiert um Züge und den Gewinner des Spiels besser vorherzusehen. Das aktualisierte KNN wird dann wieder mit dem Suchalgorithmus rekombiniert, wodurch eine neue, stärkere Version von Alpha Go erzeugt wird und der Prozess beginnt von vorn. Mit jeder Wiederholung steigt die Leistungsfähigkeit ein kleines Bißchen und die Qualität der Spiele des Systems mit sich selbst wird besser usf. Zusammen mit ein paar weiteren Verbesserungen zu den Vorgängerversionen wird Alpha Go Zero so viel schneller und effizienter: es läuft mit nur 4 TPUs, einem Zwölftel dessen, was noch Alpha Go Lee benötigte.
Kommentare (74)