Googles KI-Assistent erkennt, was Nutzer sehen

4

Gemini Live

Google-Assistent kann jetzt sehen, was der Nutzer sieht


07.04.2025 – 14:00 UhrLesedauer: 2 Min.

imago images 0443935831Vergrößern des Bildes

Google Gemini: Der KI-Assistent bekommt eine neue Funktion zur visuellen Erkennung. (Quelle: IMAGO/CFOTO/imago)

Google veröffentlicht eine neue Funktion für seinen KI-Assistenten Gemini. Doch nur Besitzer sehr neuer Handys profitieren zunächst davon.

Google hat seinen KI-Assistenten Gemini mit neuen Funktionen ausgestattet. Wie der Konzern mitteilt, ist Gemini Live mit Kamera- und Bildschirmfreigabe ab sofort für mehr Android-Nutzer verfügbar. Die Funktion ermöglicht es, mit dem KI-Assistenten über das zu sprechen, was der Anwender auf dem Bildschirm sieht oder mit der Kamera aufnimmt.

Bislang war diese Funktion nur für zahlende Gemini-Advanced-Abonnenten auf Android-Geräten zugänglich. Nun wird sie auch für alle Gemini-App-Nutzer mit einem Pixel 9 oder Samsung Galaxy S25 verfügbar gemacht. Für Besitzer älterer Geräte bleibt die Funktion vorerst nicht nutzbar.

Laut Google können Nutzer mit Gemini Live natürliche Gespräche in über 45 verschiedenen Sprachen führen. Der KI-Assistent soll dabei in der Lage sein, visuellen Input zu verarbeiten und darauf zu reagieren.

In seiner Ankündigung stellt das Unternehmen fünf konkrete Anwendungsmöglichkeiten für Gemini Live vor: Bei der Raumorganisation kann der Nutzer die Kamera auf unordentliche Bereiche richten und Tipps zum Aufräumen erhalten. Für kreative Projekte kann der KI-Assistent Inspirationsquellen analysieren und Ideen liefern.

Auch bei der Fehlerbehebung – beispielsweise an Möbeln oder Geräten – soll Gemini unterstützen können, indem Nutzer das Problem mit der Kamera zeigen. Beim Onlineshopping kann durch Bildschirmfreigabe oder Kameraeinsatz eine Beratung zu Produkten oder Outfits erfolgen. Zudem lässt sich der Dienst für Feedback zu eigenen Arbeiten wie Blogbeiträgen oder Social-Media-Inhalten nutzen.

Die Erweiterung von Gemini Live ist Teil eines Trends, bei dem KI-Assistenten zunehmend multimodal werden – also verschiedene Eingabeformen wie Text, Sprache und nun auch Bilder verarbeiten können. Google hatte die Kamera- und Bildschirmfreigabe-Funktion bereits im März für zahlende Kunden eingeführt, bevor sie nun auf weitere Geräte ausgerollt wird.

Details zu möglichen Datenschutzmaßnahmen bei der Verarbeitung von Kamera- und Bildschirmaufnahmen wurden in der Ankündigung nicht genannt. Ebenso bleibt offen, wann die Funktion für weitere Smartphone-Modelle verfügbar sein wird.