瞭解DeepSeek [深度求索]的背景介紹

瞭解DeepSeek [深度求索]的背景介紹

瞭解DeepSeek [深度求索] 的背景介紹

(1) DeepSeek是不是很有錢?

對,很有錢
2023年5/6月,據稱,國內擁有超過1萬枚GPU的企業不超過5家,而DeepSeek就是其中之一。
[深度求索] DeepSeek背靠1000億級別量化基金
2019年,同源的幻方量化成為中國首個募資超過 1000 億元的量化對沖基金,因而DeepSeek幾乎不需要募資。
招聘廣告甚至宣稱可以無限制調用 10000 多個GPU。

(2) 梁文鋒,何許人也?

梁文鋒初中就完成高中數學課程,開始學大學數學,2008年起,梁文鋒開始帶領團隊使用機器學習等技術探索全自動量化交易,請注意,2010年,25歲的梁文鋒才從浙江大學碩士畢業。
梁文鋒生在湛江,與全紅嬋是老鄉,坊間傳言,在DeepSeek爆火之後,風水師還專門拿著專業工具來兩家大宅測量研究。

(3) 輝達 nVidia 股價下跌了多少?

有說下跌11%,有說下跌17%
反正都對,因為統計方式不同,11%:3500億美元,17%:約4650億美金。整個納斯達克大盤跌去了近2萬億美金,納斯達克指數下滑了3%。
中國2023年GDP是129萬億人民幣,折合下來,英偉達股價下跌了2.4萬億或者3萬億人民幣,算算這相當於百分之幾的GDP了?

(4) 以小窺大

從1月26日到2月7日的 13 天時間裡,虎嗅發佈/轉發了 17 篇DeepSeek文章
以小窺大,從這一個資訊平臺可以看出DeepSeek的爆火

(5) 為了應對恐慌,OpenAI免費發佈了o3-mini

同時,自GPT-4推出以來,OpenAI已將每 token 價格下調 95%。
對於月付 200刀 的pro用戶,還推出了Deep Research功能,它能找電視劇,只記得模糊的劇情,都能給出結果,需要購買汽車、家電和傢俱時,也可以找它。

(6) Meta(Facebook)要擴大投資

Meta(Facebook)創始人的紮克伯格,更是放出2025年繼續擴大AI投資的新消息,稱2025年圍繞AI的整體支出將達到600億-650億美元,相比去年的380億-400億美元,增長了超過70%,從而構建起一個擁有130萬塊GPU的超級電腦集群。

(7) DeepSeek-R1其實比不過GPT o1,但是勝在便宜、開源、訓練成本低

OpenAI旗下主流產品產品(GPT-3.5、GPT-4、GPT-o1、GPT-o3、ChatGPT、DALL-E),截至目前都是閉源產品。
R1每百萬輸入tokens在1~4元人民幣,每百萬輸出tokens為16元人民幣。作為對比,OpenAI o1的運行成本約為前者的30倍。
為什麼說比不過 GPT o1?看下面

(8) DeepSeek是不是超越了GPT?


沒有
在推理性能上 R1 與 o1 不相上下,而 o3 的能力明顯高於 R1 和 o1
R1 特意沒有提及那些它並不領先的基準測試,在許多情況下甚至不如 o1,o3 的能力則明顯高於 R1 和 o1。
即使不提OpenAI,只說其他模型,可能都和R1不相上下
Gemini Flash 2.0 Thinking 模型成本遠低於 R1,並且在已公佈的基準測試中,Flash 2.0 Thinking 超越了 R1,但卻未獲得太多關注。(不過,與 R1 類似,Google 只發佈了 3 個基準測試,因此情況都不夠全面)

(9) DeepSeek訓練成本只有1/10?

對也不對
DeepSeek-V3才是1/10,DeepSeek-R1的成本至今沒公佈
DeepSeek-V3花費約557.6萬美元,Llama 3.1訓練消耗了DeepSeek-V3 11倍的計算資源,成本超過6000萬美元。
OpenAI僅僅是GPT-4的訓練成本就接近1億美元(虎嗅提到,《斯坦福大學人工智慧指數資料包告 2024》認為GPT-4的訓練成本約為 7800萬美元)
不過,廣為討論的 557.6萬美元成本僅指預訓練過程中 GPU 的花費,這只是模型總成本的一部分
(10) 兩個關鍵

低成本分發與面向c端,是大眾化的兩個關鍵
(11) 全球第二的LLM廠商CEO的態度
全球LLM前3的廠商:①OpenAI、②Claude、③gemini,排名第②的Claude的CEO叫Dario,Dario對第一老大的新版本o1是不慌的,但是DeepSeek新版本剛發佈,Dario就強調加強對中國的晶片監管,有網友對Dario的評價由正面轉向複雜

(12) [深度求索] DeepSeek這麼厲害靠的是蒸餾?

說法不一,沒有定論。
矽穀的大廠強調 DeepSeek 靠的是蒸餾,但是也有說法稱絕對不僅是靠蒸餾:蒸餾的學生模型性能幾乎一定比老師模型更差,但 R1 模型在某些指標性能比 o1 更強,所以說 R1 蒸餾自 o1 是非常愚蠢的。
DeepSeek 說自己是 OpenAI 的模型怎麼解釋?
大模型在訓練時並不知道當前的時間,自己究竟被誰訓練、訓練自己的機器是 H100 還是 H800,X 上有位用戶給出了精妙的比喻:這就像你問一個 Uber 乘客,他坐的這輛車輪胎是什麼品牌,模型沒有理由知道這些資訊。
未來一種新的趨勢可能會採取類似 KYC(瞭解你的客戶)的方式來阻止資料蒸餾。

(13) DeepSeek是自學成才

DeepSeek的技術革新是,以前是人工打分,現在是ai給自己打分
OpenAI 可以請大量廉價勞動力,對 AI 的輸出結果進行評測:好/中/差,但很快隨著 GPT-4o/Claude 3.5 Sonnet 的誕生,大模型的智商已經超越了普通人,只有專家級別的標注人員,才有可能説明模型提升。
且不說聘請專家的成本,那專家之後呢?終究有一天,最頂尖的專家也無法評估模型結果了,AI 就超越人類了嗎?並不是
因此,R1靠的是自行打分,不依賴人類的智商、經驗和偏好,僅靠 RL 去學習那些客觀、可測量的人類真理。

(14) 為啥這麼便宜?

多頭潛在注意力(MLA)是 DeepSeek 在推理成本上大幅降低的關鍵創新。
因為與標準注意力機制相比,MLA 將每次查詢所需的 KV 緩存減少了約93.3%。KV 緩存是 Transformer 模型中的一種記憶體機制,用於暫時保存代表對話上下文的資料,從而減少重複計算。隨著對話上下文的增長,KV 緩存也會增加,進而帶來巨大的記憶體壓力。因此大幅減少每次查詢所需的 KV 緩存,就能降低每次查詢所需的硬體量,從而降低了整體成本。
也有觀點猜測,DeepSeek的價格是零利潤的

DeepSeek 的開源模式和低成本策略,改變了科技大廠的策略,促使更多公司加入開源陣營,並顛覆了靠模型收費的商業模式。不僅在技術上取得了突破,還改變了競爭格局、商業模式和投資方向。

值得關注的是,受限於美國不斷收緊的晶片制裁政策,中國公司無法從輝達等晶片公司購買高端晶片,也無法製造 7 奈米及以上的高端晶片,導致不少中國 AI 大模型創業創新團隊不得不默認一個所謂的「跟隨戰略」:緊跟世界前沿創新的腳步,保證中國 AI 大模型不落後三個六個月。

(15) AI 也三心二意

包括 DeepSeek-R1-671B 在內的大模型,有三心二意的毛病
當前的推理大模型經常在思考早期就走上了正確的路線,但傾向於“淺嘗輒止”,很快開始探索別的思路,導致後續生成的數千個tokens對解題毫無貢獻。
類o1模型在錯誤回答中比正確回答多消耗了225%的token,原因是思維切換頻率增加了418%。

發佈留言