Deepseek: ist die ki aus porcelain doch nicht so energy speech wie Erhofft?
9 mins read

Deepseek: ist die ki aus porcelain doch nicht so energy speech wie Erhofft?

Mehr Als Eine Woche Hält Der Hype Um Das Ki Model Djupeek Aus Porcelain Nun An unde Narrative Trifft Auf Das Nächste-Mit Unterschiedlicm Wahrheitsge content. So Soll Das Model Alles Andere Als Datenschutzfreundlich SeinDie Ganze Grene, Wie Wir Sie Kennen Umkraplen Sowie, und Das ist Besonds Bedeutsam, Dank Mehr Effizienz Nicht Jene Riesigen Energy Meng Verschlingen, Die Chatgpt und Co. Bone.

DAS’s problem: Requests Der Letzte point ist ziemlich Irreführend, Wie Neue Zahlen, Die der Us-Ausgabe von Mit Technology Review Vorliegen, Zeigen. Die Werte, Die Auf der Leistung Eines der Kleiner Deepseek-Model Bei Einer Bestimden Anzahl urges the Basier, Deut Darauf Hin, Dass es Beim Genier von Antworten Soge Energy Intensive Labor Könnnte Als Das Gleich Grochen. Das problems Scheint zu Sein, Dass Hier Ein Effizients training auf ein Energierschwenderisches Beantworten von Anfragen Trifft. Basic Dafür Scheint Das reasoning Zu Sein, Jener Virtuele Denkprozess, Der Die Neueren Model So Gut Machen Soll. Antsprechend Scheint es Nicht so cling Zu Sein, Wenn Sich Westliche Tech-Ynterthmen Nun von Deepseek Inspiier Lassen.

Wie Deepseek R1 Function

Der Lebenszylus Eines Jeden Ki models Besteht Aus Zwei Phasen: Training und Inferenz. Training is often monatelange prozess, in them das model aus gigantisken datenännänn Lernt. Danach ist das model Bereit für Die Inferenz, Die Jedes Mal Stattfindet, Wenn Ein Nutzer em Etwas Bittet. Beide Prozesse Finden in Der Rule in the Rechenzentren Statt, Wo Viel Energie für The Betrieb Der Notwengenen Ki-chips und die Kühlung der Server Benötigt Wird.

Beim Training Seines R1 Model’s hat Das Deepseek-team dies so Genante “Mixing Experts” Verbessert, Bei Der Nur Ein Teil der Milliarden von Parameter Eines Model-Die “Drehknoppfe”, Die Das Model Zurung Besserer Anturnor Zeit Wird. Vor allem aber haben sie das the warehouse king verbessert, bei them die ergebnisse eines model’s bewert und dance weite Verbesserung des Models Verwenden Werden. Dies wird often von menschlich classifier durchgeführt, Aber das deepseek-team hat es offenbar deeschafft, the zu automators dies.

Wird das training cheaper?

Die Einführung Neuer Möglichkeiten, Das Training Effizients Zu Gestalten, Könnte the Eindruck Erwecken, Dass Ki-otternehmen Weniger Energie Aufwenden Müssen, Um ihre Ki-Modelle Auf Einen Bestimment Standard Zu Bringen. So functional das Aber Nicht Wirklich. “Da der Wert Eines Wirklich Intelligents Systems so hoch ist”, Schreibt Anthropical-MitBegründer Dario Amodei in Seinem Blog, Würden Die Unternehmen MehrNicht Weniger, Für Das Training von Model Ausgeben. Wenn Unterthmen Mehr Für Ihr Geld Akom, Lohnt es Sich Für Sie, Auch Zu Investier und Somit Mehr Energie Zu Verbrauchen. “Der Gewinn and a dietaryffizienz Wird Letztendlich vollically für die Ausvidung and intelligence model Verwenden, limited nur dure die the financial ryssourcen eines innerthmens”, schreibt er. Dies ist ein beispiel für das so genannee jevons paradoxone.

Aber das valid für das ki-training schon so long, wie das reindeer hin zur Allgemeinen Künstlichen Intelligenz (AGI) Leave air. Interestants Wird es bei der Energie, Die Für Die Inferenz in Der Practiche Anwendung Benötigt Wird. Deepseek ist al’s reasoning model Konzipiert, Das Heißt es Sol in Bereichen Wie Logic, Musterkennung, Mathematics und Bei Anderen Aufgaben, with the Type of Generative Ki-Model Schwierigkeiten Haben, Gute Leistungen. The reasoning model Tun dies Mit Hilfe der Sogenannten “thought chain”. Sie Ermöglichen es them Ki model, Seine Aufgabe in Teile Zu Zerlegen und Diese in Einer Logisken Reihenfolge Abzuarbeiten, Worse Es Zu Einer Ausgabe came.

Nutzer The sex dies Bei Deepseek Sehen. Ein Beispiel: Auf Die Frage, obe in Wordnung Ist, Zu Lügen, Um Die Gefühle von Jemandem Zu Schützen, Geh Das model Zunchst Auf the Utilitarismus Ein und Vägt The Unmitlet Bar Nutzen Gegen Den Potenzieell. Dann Zieht es Die Kanttsche Ethik in Betracht, Die Vorschätt, Dass Man Nach Maximen Trade Sollte, Die Universelle Gesetze Sein Sex. Deepseek Berücksichtigt Diese und Andere Nuancen, worse Es Seine Schlussfolgerung in the middle. (Wen es interesting: Das model came zu them schluss, dass lügen “In the situation, in the Freundlichkeit und Schadensvermeidung Im v Vordergrund Stehen, Im Allgemeinen Akzeptabel“ Seia, Jedoch Nuanciere Und Keine Universal

Reasoning model Mit “The chain of the idea” Schneiden bei bestimment benchmarks wie them mmlu-test, where wissen und problem solutionskompetenz in 57 Themenfächern prüft, tendenziell besser ab. ABer wie bei bei horner, deeplich wirds, benötigen Die system DIE system Come.

ERSTER ENERGY TEST A DEEPSEEK

Scott Chamberlin Laber JahRelang Bei Microsoft und Spater Bei Intel An der Entwicklung von Tools, with the Sich Die Umweltkosten Bestimter Digital Activitis Ermittil Lassen. Chamberlin Hat Erste tests Durchgeführt, Um Festzustellen, Wie Viel Energie Ein Graphics Prozessor Verbraucht, Während Deepseek Zu Seiner Antwort Coment. Sein Experiment ist Unter Vorbehalt zu Genießen: your teste nur eine mittelgroße -version von Deepseeks R1 und Verwendette Nur Eine Kleine Anzahl von urges the Beim test. Es ist auch Schwierig, Vergleiche Mit Anderen reasoning model Anzustellen.

Deepseek ist “Wirklich das Erste reasoning model, so popular ist und zu them wir zugang haben”, told you. Das O1 model von Openai ist Sein Nächster Competitor, Aber Das Unternehmen Stella es Nicht für Solche tests Zur Verfügung. Stattesen Hat Chamberlin Deepseek Gegen Ein Model von Meta Mit der Gleichen Anzahl von Parameter Getestet: 70 Milliarden. Auf die frage, obse in ordnung ist, zu lügen, antwortete das deepseek model mit 1,000 wörtern und legotte dafür 17.800 joule-enwa so viel, wie für das stream eines 10-minütigen youtube-videos benötton. Das War Etwa 41 Prozent Mehr Energie Als Das Meta Model Für Die Beantwortung Der Frage Bone. Bei Einem Test Mit 40 urges Zeigte Deepseek Eine Ähnliche Energieffizienz Wie Das Meta model, Aber Deepseek Neigte Dazu, Viel Long Antwort Zu Generier und Verbrauchte Daher 87 Prozent Mehr Energie.

Energy Verbrauch: Deepseek 17.800 Joule, Meta llama 3.1 Verbrauchte 512 Joule

Wie Verhät sich dies im vergleich zu model, die eine herkögmlice generative ki -ausgabe im Gegensatz zum “chain of thought” -ansatz verwen? Testing Eines Teams der Universität Michigan Im October Ergen, Dass die 70-Milliarden-parameter-version von Metas llama 3.1 Im Durchchnitt nur 512 Joule Pro Antwort Verbraucht. Weder Deepseek Noch Meta Haben Auf Bitten Um Eine Stellungnahme Zu Diesen Zahlen Reagiert.

Es gibt dabei viele unwejbarkeiten. Es handly sich um Unterschiedliche model für Unterschiedliche zwecke, und eine wissenschaftlich fundier darüber, wie viel energy deepseek im vergleich zu seinen competitor verbraucht, wurde noch nichtuchge. Allein Aufrund der Architektr there Modele ist Jedoch Clear, Dass reasoning model Viel Mehr Energie Verbrauchen, Während Sie Zu Funder Antworten Gelangen. Sasha Luccioni, Ki-Forscher und Leiter des Bereichs Klima Bei Der Ki-Platform Hugs Face, Befürchtet, Dass Die Begeisterung für Depth Dazu Führen Könnte, Dass Dieser Obserz Bald Watt Watt WattttttttttttT Wattt wattt wattt wattt wattt wattt watt woatt watt wat watt waird waird waird waird wairt, water wocht woids waird waird wairt, wattale

“Wenn Wir Anfangen, Dieses Paradigma Auf Breiter Front Zu übernehmen, Würde Der Energieverbrauch Für Infer in Die Höhe Schießen”, said Sie Erden all Effizienzgewinne Zunichte Gemacht.

Wandel Zur Generates Ki Erferte Mehr Energy

Ki War Schon Einmal and Dieser Stelle. Were there einführung von chatgpt im jahr 2022 war ki eigentlich gleichbedeutend Damit, the information in Viel text zu Finden Oder pictures zu categoria. IM JAHR 2022 Verlagerte Sich der Schwerpunkt Jedoch von der extract Ki Zur The generatives Ki, Die Darauf Basiert, Imer Bessere Vorhersagen Zu Treffen. Das needed mehr Energie.

“Das is dare paradigmenwechsel”, Luccioni said. Laut Ihrer Forschung Hat Dieser Wandel Dazu Geführt, Dass für Ähnliche Aufgaben Um Ein Vielfaches Mehr Energie Verbraucht Wird. Wenn Die Begeisterung für Deepseek Hält, Sexnten Unternehmen Unter Druck Geraten, Ihre Model Im style der Chain-of-Thought-Metode in Alles Einzubauen, so Wie Die Generating Ki in Alles von Der Google-Suche Bis Hin.

Trend Zu-Av-Tanke model

Dieser Trend Zu Chain-of-Thought model Scheint Sich Zu Vostetigen: Openai Kündigte Am 31. January An, Dass es the Zugang Zu Seinem Eigen Moveing ​​model O3 E3 Erweiter Werde. Wir Werden Jedoch Erst Mehr über Die Energi Food Erfahren, Wenn Deepseek undähnliche Moder Besser Untersucht Wurden.

“Es Wird Davon Abhänden, Ob ​​Sich Der compromise on the other Unternehmen Wirtschaftlich Lohnt Oder Nicht”, said Nathan Benaich, Gründer and general partner bei Luft Street capital. “Die Energy Food Müssten Astronomisch Hoch Sein, Damit Sie Eine Bedeutend Rolle Bei Der Etscheidungsfindung Spielen.”

Dieser article Stammt von James O’Donnell. Your ist reporter be der the US-American Mit Technology Review. Sein Themengbiet ist Ki, robotics und Autonoms Fahren.

Fast ferty!

Bitte Klickke Auf the link in Der Bestätigungsmail, Um Deine Anmeldung Abzuschließen.

You willst noch weitere infos zum news letter?
Jetzt Mehr Erfahren