Generative KI und Foundation Models in der Robotik

Der Einsatz von Generativer KI und Foundation Models innerhalb moderner Robotersysteme erschließt neue Potenziale für die Forschung und Industrie. Lernfähige Roboter erstellen eigenständig Bewegungs- und Handlungspläne, erkennen Objekte und Szenen per Vision Language-Models und setzen natürliche Sprachbefehle dank Large-Language Modellen (LLMs) in Echtzeit um. Davon profitieren Unternehmen durch höhere Flexibilität, geringere Ausfallzeiten und intuitivere Bedienung – selbst in dynamischen oder unstrukturierten Umgebungen. 

Zwei Intalogistikroboter, die in einer Testhalle einander gegenüberstehen.
© Fraunhofer IML

Relevanz Generativer Künstlicher Intelligenz in der Robotik

Automatisierungslösungen und Roboter werden seit vielen Jahren erfolgreich für klar definierte Aufgaben in strukturierten Umgebungen eingesetzt. In unstrukturierten Szenarien oder bei der Interaktion mit vielfältigen Objekten und Menschen stoßen klassische Systeme jedoch an ihre Grenzen. Die zugrunde liegenden Algorithmen und KI-Modelle sind meist für spezifische Aufgaben ausgelegt und können nicht auf unbekannte Situationen und Objekte generalisieren.

Generative KI-Modelle wie Large Language Models (LLMs) und Vision Language Models (VLMs) erweitern klassische KI-Algorithmen um die Fähigkeit zur Generalisierung. Diese sogenannten Foundation-Modelle (deutsch: Basismodelle) sind auf riesigen Datenmengen aus dem Internet trainiert und in der Lage, aus dem Gelernten neue Inhalte wie Texte oder Bilder zu erzeugen. Dadurch erhalten Roboter ein umfassendes Verständnis ihrer Umgebung und können darauf basierend gezielt Aktionen planen.

Durch den Aufbau von Agentensystemen entwickeln wir intelligente Werkzeuge, die sowohl das Situationsverständnis als auch die Handlungsfähigkeit von Robotern verbessern. Während diese Modelle in virtuellen Anwendungen oft beeindruckende Ergebnisse liefern, stellt ihre Übertragung in die physische Welt – insbesondere in die Robotik sowie in spezialisierte Domänen wie Logistik und Intralogistik – eine besondere Herausforderung dar.

Wir bündeln interdisziplinäre Expertise aus Robotik, KI und Logistik und nutzen unsere Infrastruktur – vom Motion Capture im PACE Lab bis hin zu High-Performance-Compute-Clustern – zur erfolgreichen Integration und domänenspezifischen Anpassung der Modelle, einschließlich (Fine-)Tuning. So verbinden wir neueste Forschungstrends mit konkreten industriellen Anforderungen.

Ansätze für flexible Systeme

 

  1. Agentensysteme für flexible Aufgabenbewältigung: Generative Modelle ermöglichen die automatische Erstellung von Bewegungsplänen (Task Planning) und Programmen (Code Generation) und ermöglichen so eine dynamische Anpassung an neue Aufgaben.
  2. Erweitertes Umgebungsverständnis: Vision Language Models (VLMs) erkennen Szenen sowie Objekte und können diese beschreiben und interpretieren. Dieses Kontextwahrnehmung ermöglicht eine fundierte Entscheidungsfindung in komplexen Umgebungen.
  3. Intuitive Mensch-Roboter-Interaktion: Large Language Models (LLMs) erlauben natürliche Sprachbefehle und unterstützen dialogbasierte Programmierung, Inbetriebnahme und Fehlerdiagnose.
  4. Wissensbasierte Prozessunterstützung: Durch den Einsatz von Retrieval-Augmented Generation (RAG) kann relevantes Prozesswissen effizient verwaltet und kontextbezogen bereitgestellt werden.

Denken Sie über den Einsatz KI-basierten Robotern nach? Dann nehmen Sie Kontakt auf.

Unser Leistungs- und Technologieangebot rund um Generative Künstliche Intelligenz in der Robotik

Ganzheitliche Projektbegleitung

  • Von der Konzeptidee über Bedarfsanalyse bis zum produktiven Einsatz Ihrer KI-Robotik-Lösung
  • Kontinuierliche Abstimmung mit Ihren Fachbereichen und iterative Optimierung

Generative KI-Modelle

  • Wir integrieren Foundation Models für autonome Robotersteuerung und übernehmen die Feinabstimmung

Dateninfrastruktur im PACE Lab

  • Bewegungs- und Bilddaten werden mittels Motion Capture hochpräzise erfasst
  • Generieren fotorealistischer, synthetischer Datensätze für robustes Modelltraining

Integration von Large-Language-Models, Vision Language Models und RAG 

  • Einbinden von LLMs zur natürlichsprachlichen Interaktion
  • Einbinden von VLMs zur Objekterkennung und Szeneninterpretation in Logistikprozesse

Aufbau und Erprobung adaptiver Cobotics- und Kommissionierungslösungen

  • Realitätsnahe Testszenarien im PACE Lab zum Validieren von Mobilen Robotern, Cobots und Kommissionier-Workflows
  • Feedback-Schleifen zum schnellen Anpassen von Hard- und Softwarekomponenten

 Systemintegration und Validierung mit digitalen Zwillingen

  • Nahtlose Anbindung der KI-Module an Ihre Steuerungssoftware und Roboterhardware
  • Automatisierte Simulationstests zum Prüfen von Sicherheit, Robustheit und Performance
Profilfoto von Oliver Urbann

»Generative KI erweitert das Umgebungsverständnis von Robotern und ermöglicht eine natürliche Interaktion – fast wie mit einem menschlichen Kollegen. So wird der Roboter zum universellen Werkzeug, etwa in der Kommissionierung oder in teilöffentlichen Räumen wie Krankenhäusern.«

Dr. Oliver Urbann, Nachwuchsgruppenleiter KI & Robotik

FAQ zur Robotik Simulation

  • Generative KI wird zur Automatisierung der Steuerung und Umgebungswahrnehmung in der Robotik eingesetzt, und ermöglicht dabei insbesondere die Generalisierung des Verhaltens der Roboter auf unstrukturierte Probleme.

  • Vision Language Models (VLMs) erkennen Objekte und Personen, während Large Language Models (LLMs) Bewegungsabläufe in Echtzeit anpassen. So navigieren Roboter sicher durch wechselnde Szenarien.

  • Generative KI erstellt Programme und Pläne on-the-fly, reduziert manuelle Parametrierung und minimiert Ausfallrisiken bei unbekannten Aufgaben.

  • Viele bestehende Modelle wurden auf allgemeinen Internetdaten trainiert und sind daher oft nicht direkt auf spezifische industrielle Domänen übertragbar – domänenspezifisches Wissen fehlt.

    Das Fraunhofer IML unterstützt mit seinem Domänenwissen Unternehmen bei der Auswahl geeigneter Modelle und verfügt über umfassende Erfahrung in der Integration unterschiedlicher KI-Modelle in bestehende Systeme. Mit dem PACE Lab steht zudem eine Testumgebung zur Verfügung, in der Funktionen erprobt und domänenspezifische Daten für das Fine-Tuning generativer Modelle erhoben werden können.

  • Task Planning (Aufgabenplanung) bezeichnet die automatische Erzeugung von Sequenzen von Arbeitsschritten oder Bewegungsabläufen für einen Roboter. Dabei plant das System in Echtzeit, wie es eine gegebene Aufgabe unter Berücksichtigung von Ressourcen, räumlichen Gegebenheiten und Zielvorgaben optimal umsetzt.

  • Code Generation (Codeerzeugung) beschreibt den automatisierten Prozess, bei dem eine KI basierend auf einer definierten Aufgabe oder Beschreibung eigenständig Programmcode erstellt. In der Robotik bedeutet dies, dass Steuerungs- und Ablaufprogramme für Roboter direkt aus generativen Modellen abgeleitet werden, ohne manuellen Programmieraufwand. Dies reduziert den Integrationsaufwand und die Abhängigkeit von Systemintegratoren