DeepMind, das Labor für künstliche Intelligenz von Google, hat eine neue Arbeit veröffentlicht, in der die Entwicklung des Vision-Language-Action-Modells (VLA) erläutert wird. Das Modell lerne aus Internet- und anderen Daten, um es Robotern zu ermöglichen, beim Navigieren durch Umgebungen einfache Sprachbefehle von Menschen zu verstehen.
ZeroHedge, das über die Arbeit berichtet, vergleicht den Robotics Transformer 2 (RT-2) mit denen aus dem Disney-Film «Wall-E» oder aus dem Film «Bicentennial Man» aus den späten 1990er Jahren.
Bisher ist es gelungen, Roboter für einfache Aufgaben wie das Wegwerfen von Müll oder das Kochen von Pommes Frites zu trainieren. Doch es gibt eine ganz neue Verbesserung der «Intelligenz», da Roboter nun in der Lage sind, weitere Aufgaben auszuführen, wie Vincent Vanhoucke, Leiter der Robotik bei Google DeepMind, erklärte:
«Im Gegensatz zu Chatbots brauchen Roboter eine ‹Erdung› in der realen Welt und in ihren Fähigkeiten. Bei ihrer Ausbildung geht es nicht nur darum, beispielsweise alles zu lernen, was man über einen Apfel wissen muss: wie er wächst, welche physikalischen Eigenschaften er hat, oder dass einer angeblich sogar auf dem Kopf von Sir Isaac Newton landete. Ein Roboter muss in der Lage sein, einen Apfel im Kontext zu erkennen, ihn von einer roten Kugel zu unterscheiden, zu verstehen, wie er aussieht, und vor allem muss er wissen, wie er ihn aufhebt.»
Die entscheidende Erkenntnis ist laut ZeroHedge: Roboter werden nun viel intelligenter als je zuvor und sie werden genug «Intelligenz» haben, um Menschen in gering qualifizierten Berufen zu ersetzen. Im März teilte Goldman Sachs seinen Kunden mit, dass die Robotisierung des Dienstleistungssektors in den kommenden Jahren zum Verlust von Millionen von Arbeitsplätzen führen würde.
Kommentare