Deepseek doch nicht so effizient? Noch ist vieles unklar bei der KI aus China

7

Offene Fragen zum chinesischen Startup verhindern eine nüchterne Beurteilung seiner Innovation.

Nichts schüttelte die Tech-Welt in den vergangenen Jahren so stark durch wie das Sprachmodell R1 des chinesischen Startups Deepseek. Endlich ein Open-Source-Modell, das mit den amerikanischen Branchenführern mithält, aber sehr viel weniger Geld und Energie verbraucht. So zumindest die gängige Analyse. Doch nun kommen kritische Fragen auf: Wissen wir überhaupt genug über Deepseek, um die Leistungsfähigkeit ihres Modells einzuschätzen? War der grosse Hype in den Medien vielleicht übertrieben?

Optimieren Sie Ihre Browsereinstellungen

NZZ.ch benötigt JavaScript für wichtige Funktionen. Ihr Browser oder Adblocker verhindert dies momentan.

Bitte passen Sie die Einstellungen an.

Mehrere Gründe sprechen dafür. Als Erste relativierten amerikanische KI-Firmen den Erfolg ihres Konkurrenten aus China. Dario Amodei, CEO der KI-Firma Anthropic, schrieb in einem Blogeintrag, dass die Kosten der KI-Entwicklung für alle kontinuierlich sänken und der Effizienzgewinn von Deepseek deshalb erwartbar gewesen sei.

Als direkter Konkurrent hat Amodei ein Interesse daran, den Erfolg von Deepseek kleinzureden. Trotzdem finden auch unabhängige Experten, der Medienhype um Deepseek gehe zu weit. Mark Vero, KI-Forscher an der ETH, sagt: «Viele Schlagzeilen zum Effizienzgewinn beruhen auf einem Missverständnis.»

Demnach habe Deepseek nur veröffentlicht, wie viel Geld das Startup für das Training des Modells ausgegeben habe. Aber der gesamte Prozess der Entwicklung, inklusive des aufwendigen Aufbereitens der Trainingsdaten, habe wesentlich mehr gekostet als die angegebenen sechs Millionen Dollar, sagt Vero.

Die effektiven Kosten werden mit einer Analogie deutlich: Wäre Deepseek ein Pharmaunternehmen, entsprächen die sechs Millionen Dollar lediglich den Herstellungskosten des neuen Medikaments. Doch diese Zahl verrät weder, wie viel die verwendeten Rohstoffe kosten, noch, wie hoch die Kosten für Forschung und Entwicklung insgesamt waren.

Wie viel Geld Deepseek für die gesamte Entwicklung ihrer Modelle zur Verfügung hatte, ist unklar. Genauso wie die Technik, die man dafür brauchte. Die Analyseplattform Semianalysis, die sich auf Berichterstattung aus der Halbleiterindustrie spezialisiert hat, schätzt alleine die Ausgaben für Hardware auf über eine halbe Milliarde Dollar.

Angeblich nur 2048 Chips mit gedrosselter Leistung

Die Autoren bei Semianalysis zweifeln zudem an der Zahl der angeblich verwendeten Computerchips. Im Dezember gab Deepseek in einem wissenschaftlichen Bericht an, dass ihr V3-Modell mit gerade einmal 2048 Nvidia-Chips der Art H800 trainiert worden sei. Auf dem V3-Modell basiert auch der vielbeachtete Chatbot R1.

Dylan Patel, Gründer von Semianalysis, wirft im Podcast des russisch-amerikanischen Informatikers Lex Friedman die Theorie auf, dass Deepseek wesentlich mehr als die 2048 Nvidia-Chips zur Verfügung hatte. Er schätzt, es seien eher 10 000 H800-Chips gewesen, plus weitere 10 000 der leistungsstärkeren H100.

Beide Chiparten unterliegen amerikanischen Exportkontrollen und dürften laut amerikanischen Gesetzen nicht nach China exportiert werden. Deshalb wirft Patel im Podcast drei Thesen auf, wie Deepseek trotzdem an die Hardware kam.

Erstens, ganz legal: Deepseek mag erst seit wenigen Wochen im KI-Rampenlicht stehen, doch der Investmentfonds High-Flyer hinter Deepseek kauft bereits seit Jahren Chips ein. Lange bevor die amerikanischen Exportbeschränkungen 2021 in Kraft traten, sicherte sich High-Flyer Tausende leistungsstarke Chips. Ausserdem konnte der H800 noch bis Herbst 2023 nach China exportiert werden.

Zweitens: Schmuggel. Laut Investorendokumenten von Nvidia ist Singapur die zweitwichtigste Absatzregion für Nvidia nach den USA. Fast 20 Prozent des Umsatzes werden Singapur zugerechnet. Bei weitem nicht alle dieser Chips werden aber tatsächlich nach Singapur geliefert. Singapur verfügt derzeit über etwa 100 Rechenzentren, jahrelang wurden keine neuen mehr gebaut, da es dem Land an Energie mangle. Singapur habe gar nicht Bedarf an so vielen Chips, sagt Patel. Viele der Halbleiter landen in China, wie jüngst eine Recherche des «Wall Street Journal» zeigte: Unter anderem schmuggelte ein Student sie in einem Ferienkoffer über die Grenze.

Drittens: ausländische Rechenpower. Chinesische Unternehmen wie Deepseek könnten ausländische Rechenzentren zum Training ihrer KI-Modelle genutzt haben. Unter Umständen sogar solche aus den USA. Denn erst im Herbst 2024 wurde im US-Repräsentantenhaus ein Gesetzentwurf eingebracht, der ausländischen Personen und Unternehmen den Zugriff auf amerikanische Rechenzentren verbieten soll.

Dazu kommt, laut einem Artikel des Tech-Portals «MIT Technology Review», ein vierter Punkt: Demnach könnte Deepseek neue Wege gefunden haben, um ältere Chips so zu optimieren, dass sie fast so gut funktionieren wie Hochleistungschips.

Niels Mündler, der an der ETH zu Sprachmodellen forscht, sagt zu den Spekulationen: «Wir können nicht genau wissen, wie viele und welche Chips Deepseek verwendete.» Es sei aber durchaus möglich, dass das Unternehmen mehr Chips habe, als es angebe, für das Training verwendet zu haben.

Deepseek antwortete nicht auf eine Medienanfrage.

Von wegen Open Source: Trainingsdaten bleiben geheim

Ein weiterer Punkt, bei dem das Modell Deepseek falsch wahrgenommen wird, ist seine vermeintliche Offenheit. Zwar ist es mit einer Open-Source-Lizenz publiziert, also für jedermann frei einsehbar. Damit ist Deepseek viel offener als Chat-GPT, bei dem die Nutzer keinerlei Einblick haben, wie das Modell funktioniert. Allerdings fehlen auch bei Deepseek wichtige Informationen darüber, wie das Modell entstanden ist.

Namentlich sind weder die Trainingsdaten noch der Trainingscode, also das genaue Vorgehen beim Training, bekannt. Zwar hat Deepseek veröffentlicht, welche Lerndurchgänge erfolgten. Allerdings ist unklar, wie lange diese dauerten und worauf die Schwerpunkte lagen.

Da man bei KI in der Herstellung gerne von Rezepten spricht, bietet sich dieser Vergleich an: Das neue Rezept von Deepseek soll nicht nur gleich gut schmecken wie die Konkurrenz, sondern auch noch viel schneller fertig sein. Und Deepseek hat in ihrer Kommunikation zwar erklärt, wie sie beim Kochen vorgegangen ist, also ungefähr, welche Schritte in welcher Reihenfolge durchgeführt wurden. Doch zum Nachkochen reicht das keineswegs. Es fehlt an Mengenangaben und Details. Ausserdem sind die Zutaten, also die Trainingsdaten, weiterhin geheim.

Deshalb steht derzeit der Vorwurf im Raum, dass Deepseek die Trainingsdaten unrechtmässig erworben hat. David Sacks, Technologieberater von Donald Trump, sagte in einem Interview, es gebe Beweise dafür, dass Deepseek Daten aus Chat-GPT «destilliert», also geklaut habe. Auch Microsoft und Open AI beklagten dies und wiesen darauf hin, dass dies in den Nutzungsbedingungen von Open AI explizit verboten sei. Öffentlich überprüfbare Beweise, dass Deepseek solche unrechtmässig erworbenen Daten verwendete, gibt es bis anhin keine.

Auch wenn vieles über Deepseek unbekannt ist: Über die amerikanische Konkurrenz wissen wir teilweise noch weniger. Die ETH-Forscher Vero und Mündler schätzen Deepseeks Beitrag aber trotz diesen Unsicherheiten und dem teilweise übertriebenen Hype. Beide wollen die technologischen Erkenntnisse von Deepseek auch für ihre Arbeit nutzen.