Chat-GPT, Gemini und Co. im Test: Kann KI Wanderungen planen?

14

Richtig hilfreich wären Chat-GPT und Co., wenn sie auch bei komplexen Anfragen verlässlich recherchierten. Etwa einer Bergtour. Ein Test zeigt grosse Schwächen – und überraschende Sieger.

Wenn künstliche Intelligenz falsche Wege weist, kann es in den Bergen schnell gefährlich werden.

Wenn künstliche Intelligenz falsche Wege weist, kann es in den Bergen schnell gefährlich werden.

Oleh Slobodeniuk / Getty

Der Plan sieht super aus: drei Tage wandern, zwei Mal übernachten – auf der Leglerhütte und der Rugghubelhütte. Beide haben Doppelzimmer im Angebot. Unterwegs soll es Gemsen und Gletscherseen geben, am Ziel Alpkäse-Fondue. All das verspricht der Chatbot, der die Route geplant hat.

Optimieren Sie Ihre Browsereinstellungen

NZZ.ch benötigt JavaScript für wichtige Funktionen. Ihr Browser oder Adblocker verhindert dies momentan.

Bitte passen Sie die Einstellungen an.

Sucht man die Hütten auf der Karte, folgt die Enttäuschung: Zwischen ihnen liegen nicht die versprochenen sechs Stunden Wegzeit, sondern 50 Kilometer Luftlinie.

Künstliche Intelligenz kann übersetzen, E-Mails formulieren und weiss auch auf schwierigste Fragen oft die richtige Antwort. Wenn man den Versprechen der Tech-Firmen glaubt, wird sie bald hochqualifizierte Jobs übernehmen. Wie aber schlägt sie sich bei wirklich nützlichen Dingen – bei Fragen, deren Antwort man nicht mit wenigen Klicks im Netz findet? Etwa der Planung einer Wanderung? Wir haben es getestet.

Neun KI von sieben Anbietern wurden getestet

Der Prompt, also die Anfrage an alle getesteten Chatbots, lautete wie folgt:

Ich will eine dreitägige Wanderung mit zwei Übernachtungen in alpinen Hütten in der Schweiz machen. Dabei will ich nur in Doppelzimmern übernachten. Bitte suche passende Hütten und Wanderwege aus:

  • zwei Hütten für eine Drei-Tages-Wanderung,
  • mit Doppelzimmer,
  • maximal acht Stunden Wegzeit zwischen den Hütten,
  • weniger als drei Stunden von Zürich entfernt.

Wir haben die Anfrage an insgesamt neun Chatbots der Anbieter Anthropic, Deepseek, Google, Open AI, Manus, Microsoft und Perplexity gestellt. Darunter waren sieben kostenlose und zwei bezahlpflichtige Chatbots.

Wir haben jeweils die Internetsuche aktiviert und, wenn verfügbar, Forschungs- und Nachdenkfunktionen, um die bestmöglichen Ergebnisse aus der KI zu holen.

Kurze Rückfragen des Chatbots wurden beantwortet. Die Chatbots machten je einen bis drei Vorschläge, die wir anschliessend ausgewertet haben. Die Ergebnisse waren in den meisten Fällen haarsträubend.

Mal fehlt das Doppelzimmer, mal die ganze Hütte

Vorweg sei gesagt: Ideen hatte jeder Chatbot. In eifrigem Ton kündigten sie tolle Wanderungen mit schönen Aussichten und kuscheligen Doppelzimmern an.

Beim Kontrollieren der Antworten wurde aber schnell klar: Häufig priesen die KI Doppelzimmer an, wo es keine gab. Die Gratisversion der KI Claude von Anthropic erfand Doppelzimmer bei beiden vorgeschlagenen Hütten, die Bezahlversion immer noch bei drei von sechs Hütten.

Und beim Suchen der von Deepseek vorgeschlagenen «Oberhornseehütte» wurde klar: Diese hatte der Chatbot frei erfunden. Dass er auch eine Wanderung im gesperrten Lötschental vorschlug, scheint daneben wie ein verzeihlicher Ausrutscher.

Wie kommt es zu den erfundenen Details? Der erste Verdacht war, dass die Chatbots auf echte Beschreibungen von mehrtägigen Wanderungen zugegriffen hatten, aber nicht herausfinden konnten, ob es in den Hütten am Wegrand tatsächlich Doppelzimmer gibt. Diese Hypothese sollte sich als falsch herausstellen.

Claude von Anthropic schlägt halsbrecherische Routen vor

Die Existenz einer Wanderroute ist schwerer zu verifizieren als jene eines Doppelzimmers. Denn theoretisch kann man ja auch Wanderrouten begehen, die noch niemand im Netz beschrieben hat. In der Praxis stellte sich heraus: Wenn man eine Route zwischen zwei Hütten nicht im Netz findet, ist das ein ernstzunehmendes Warnzeichen.

Die Gratisversion der KI Claude von Anthropic schlug etwa vor, in fünfeinhalb Stunden von Grindelwald über das «Scheidegg-Wetterhorn» zur gleichnamigen Hütte («2061 m, Blick auf Eiger, Mönch und Jungfrau») zu wandern.

Dass das Scheideggwetterhorn 3360 Meter hoch und nur durch stundenlanges Klettern auf hohem Schwierigkeitsgrad zu erreichen ist, ignorierte die KI ebenso wie die Tatsache, dass es eine Scheideggwetterhorn-Hütte gar nicht gibt. Dabei hatte der Chatbot sogar deren Telefonnummer angegeben. Wenigstens ist die angeführte Nummer der Bergrettung (1414) korrekt. Wer auf die Angaben dieses Chatbots vertraut, könnte sie brauchen.

Die Bezahlversion von Claude schlug zwar nur echte Hütten vor, die Tageswanderungen dazwischen waren aber in zwei von drei Fällen unmöglich. Sowohl zwischen der Glecksteinhütte und der Rotstockhütte als auch zwischen der Blüemlisalphütte und der Lämmerenhütte liegen jeweils 20 Kilometer Luftlinie und mehrere Berge und Täler. Zeit-, Distanz- und Höhenangaben des Chatbots waren falsch.

Einzig die dritte vorgeschlagene Wanderung in der Region Appenzell war von den Eckdaten her machbar, wenn auch falsch beschrieben.

Auch der chinesische Anbieter Deepseek, Copilot von Microsoft und die KI-Suchmaschine Perplexity schlugen Wanderrouten vor, die es nicht gibt.

Offensichtlich haben all diese KI Namen von Hütten und Bergen in der Schweiz gespeichert und wissen, wie eine Wegbeschreibung klingt. Diese Informationen werden aber nicht sortiert wiedergegeben, sondern bunt vermischt in einer plausiblen scheinenden Wanderroute, die es nicht gibt.

Ausgerechnet Gratis-KI haben die besten Vorschläge

Es ist aber nicht so, dass heutige Chatbots unserer Aufgabe überhaupt nicht gewachsen wären. Die besten Chatbots lieferten brauchbare Resultate.

Der Gewinner in unserem Test ist der Chatbot Gemini von Google. Im Research-Modus der Gratisversion schlug er gleich drei Wanderungen vor, die allesamt den angegebenen Kriterien entsprachen. Er erfand weder Doppelzimmer noch Wanderwege.

Dieser Chatbot war obendrein am angenehmsten zu kontrollieren, da er für jeden Satz eine Quellenangabe direkt verlinkte. Das ist wohl auch der Grund dafür, dass Gemini zu so guten Ergebnissen kam. Der Bot baut stark auf Internetsuche.

Gemini hielt sich an Wanderrouten, die auf Blogs bereits beschrieben wurden. Dadurch ist sichergestellt, dass der Weg existiert und sogar schon einmal als Wanderung empfohlen wurde.

Google hat seine Stärke, das Finden von Informationen im Internet, in den Research-Modus von Gemini eingebaut – in diesem Fall mit erfreulichen Resultaten. Der Suchprozess dürfte ziemlich aufwendig sein. Die KI hat mehr als zehn Minuten dafür gebraucht.

Gute Ergebnisse auch bei chinesischem Chatbot

Überraschender ist der zweite Platz: Dieser geht an den Chatbot Manus der chinesischen Firma Monica mit Sitz in Singapur. Manus hat vor drei Monaten Aufsehen erregt, als erste Tester begeistert von ihm berichteten. Tatsächlich schlägt er sich auch in unserem Test ziemlich gut. Der Chatbot schlug eine machbare Route zwischen Unterkünften mit Doppelzimmern vor.

Anders als alle anderen Chatbots hat Manus unseren Prompt erst falsch interpretiert. Die Anreisezeit von Zürich bezog er nicht auf den Start der Wanderung, sondern auf die Ankunft auf der ersten Hütte. Dadurch fiel der erste Wandertag weg. Nach einer verbesserten Anfrage waren die Resultate ziemlich gut.

Manus schlug zwei machbare Routen im Alpstein vor, mit Übernachtungen in Berggasthäusern. Eine davon war sehr gut als 3-Tages-Tour geeignet, die zweite ein bisschen weniger, weil zwischen den beiden Hütten etwas viele Ab- und Aufstiege liegen.

Auch die Pro-Version von Chat-GPT hat einen machbaren Tipp

Und dann ist da noch Chat-GPT, jener Chatbot, der für die meisten Menschen ein Synonym für generative KI geworden ist – und bis heute weitaus am meisten genutzt wird. Diese Stellung ist nicht ganz unverdient, zumindest nach unserem Test. Beide KI von Open AI haben machbare Routen vorgeschlagen, die an Unterkünften mit Doppelzimmern vorbeiführen.

Minuspunkte gab es für erfundene Details zur Route seitens der Gratisversion von Chat-GPT. Und bei der Bezahlversion führt die Route, ähnlich wie bei Manus, erst in ein Tal hinunter und dann auf der anderen Seite wieder hinauf.

Eine Internetsuche zeigt, dass die Chatbots diese Routen wohl selbst kombiniert haben. In dieser Form sind sie nirgends zu finden. Bei manchen Fragen ist diese Herangehensweise ein Vorteil. So können ganz neue Lösungen entstehen.

Wenn es um Wanderwege geht, ist es aber vorzuziehen, wenn ein Chatbot auf Ideen zurückgreift, die bereits jemand online beschrieben hat. Deshalb geht Gemini in diesem Fall als Gewinner hervor, allerdings folgt Manus dicht dahinter. Die Bezahlversion von Chat-GPT landet auf dem dritten Platz.

Es sind übrigens auch andere schon auf die Idee gekommen, generative KI für Wanderrouten zu verwenden. Die amerikanische App Alltrails soll Nutzern neu KI-generierte Varianten für Wanderwege vorschlagen, etwa die Aussicht optimieren oder Abkürzungen vorschlagen. Es bleibt zu hoffen, dass im Hintergrund verlässlichere Technologie läuft als jene, die die von uns getesteten Chatbots verwenden.

Ein Artikel aus der «»