DeepSeek 是誰?
DeepSeek,一家中國的人工智慧(AI)初創公司,在 2025 年初 發布的大型語言模型(LLM)DeepSeek R1 震撼了全球市場。該模型以其低成本 557.6 萬美元,對 AI 大模型的發展範式、GPU 算力市場及 AI 初創企業生態帶來潛在的顛覆性影響。
DeepSeek 的創新點在於其 混合專家結構(MoE) 和 多頭潛在注意力機制(MLA),使其能夠在降低訓練和推理成本的同時,保持與 OpenAI GPT-4 相當的推理能力。此外,DeepSeek 採取開源策略,將模型權重公開,降低了 AI 技術應用的門檻,為更多企業和開發者提供了進入市場的機會。
然而,DeepSeek 的成功也伴隨著爭議,如 模型蒸餾、訓練成本透明度 及 數據安全漏洞 等問題,引發了業界的廣泛討論。這些挑戰不僅影響了其市場形象,也引發了對 AI 技術發展方向的深層次思考。
幻方量化如何孵化出DeepSeek?梁文峰又是一位怎樣的領導者?
幻方量化:量化交易的基石
幻方量化是一家以人工智慧(AI)技術為核心驅動的量化投資基金。在量化交易這個領域中,AI 模型的應用越來越重要,這也促使幻方量化不斷加大在 AI 演算法和軟硬體方面的投入。有業內人士評論說,幻方更像是一家做機器學習、AI 的公司,只是副業用量化交易賺了錢。
深度求索:AI 基礎研究的獨立引擎
「杭州深度求索人工智慧基礎技術研究有限公司」(簡稱深度求索)是幻方量化旗下的子公司。深度求索並不是一家全新的公司,而是在 2023 年 5 月,從幻方量化獨立出來的一個團隊,專注於 AI 大模型的研發。這個舉措賦予了 DeepSeek 更大的自主性和靈活性,使其能夠專注於 AI 模型的研發和創新,而無需受到量化交易業務的直接干預。DeepSeek 的公司名稱也表明其核心業務是人工智慧基礎技術研究。這包括模型架構的創新,演算法的優化,以及算力的提升。
DeepSeek 的定位不只是個參與者,也是開源生態的貢獻者。DeepSeek 積極參與開源社群,將其研究成果以開源的形式分享給業界,促進 AI 技術的普及和發展。DeepSeek 也在積極探索 AI 技術的商業應用,例如將其技術應用於金融、醫療、教育等領域。
幻方量化和深度求索之間的關係,是一種相輔相成的生態關係。幻方量化作為母公司,為深度求索提供資金、算力和技術支持,使其能夠專注於 AI 基礎研究。深度求索在 AI 技術上的突破,可以提升幻方量化在量化交易領域的競爭力,為其帶來更高的投資回報。
創辦人梁文峰的故事
梁文峰是幻方量化和 DeepSeek 這兩家公司的創辦人。他於 1985 年出生,從小就展現出數學天賦。
梁文峰在 2002 年考入浙江大學電子信息工程專業,2007 年繼續攻讀研究生,專注於機器視覺的研究。2008 年全球金融危機爆發,當時還在讀碩士的梁文峰看到了量化交易的機會,開始嘗試用系統化、程序化的方式來研究市場、進行交易。
梁文峰畢業後並沒有像周圍人一樣去互聯網公司做工程師,而是躲在成都的廉價出租屋裡,不停地編寫 AI 演算法來選股,並在不同的市場場景中去嘗試。2015 年,梁文峰成立了幻方量化這個品牌。在 2015 年 A 股市場的巨大波動中,幻方反而取得了超額回報。
幻方量化有別於其他量化基金最大的不同,就是梁文峰對 AI 的執念2。2018 年,梁文峰明確了公司以 AI 為核心的發展方向,並且把整個產品線和資金管理都嫁接到以 AI 為核心策略的開發體系上了。當他在 2021 年就開始囤積數千張輝達 GPU 的時候,行業中沒人知道他想幹什麼。一位他的商業合作夥伴用「一個髮型糟糕的書呆子」來描述第一次見到梁文峰的感受。梁文峰更願意被當作工程師,而不是交易員。他幾乎每天都親自參與寫程式碼、跑程式碼。
DeepSeek 的市場影響是什麼?
DeepSeek 的低成本和高性能模型,打破了 OpenAI 等閉源模型在市場上的壟斷溢價。根據 Sensor Tower 的數據,DeepSeek 在美國免費應用榜單上名列前茅,並在全球範圍內持續火爆。這表明 DeepSeek 在 降低 AI 應用門檻、推動 AI 技術普及 方面具有重要作用。
DeepSeek 的核心技術創新與模型版本介紹
1. 核心技術創新
(1) 🔗 混合專家結構(MoE) MoE 就像餐廳裡的多位頂級廚師,根據需求分配任務,提高計算效率,降低計算資源浪費。DeepSeek V3 擁有 6700 億參數,但僅需激活 370 億參數,這意味著大幅降低了計算成本,同時保證了推理能力。
(2) 🎯 多頭潛在注意力機制(MLA) DeepSeek 通過 🔄 多 token 預測(MTP) 提高了模型的記憶能力,使其能夠一次預測多個 token,提升語言模型的運行效率。
(3) 🏆 群體相對策略優化(GRPO) DeepSeek R1 的訓練採用 GRPO 強化學習算法,讓模型基於已有知識進行優化,而非單純依賴標註數據,從而極大提升了訓練效率,降低了成本。
2. DeepSeek 模型版本
📌 DeepSeek V3:擁有 6700 億參數的大語言基礎模型。
📌 DeepSeek-R1-Zero:利用無監督數據與強化學習方式微調,提高數學與程式碼領域的推理能力。
📌 DeepSeek-R1:在 R1-Zero 基礎上增加監督數據,提升模型整體能力。
市場對 DeepSeek 存在哪些爭議?
市場對 DeepSeek 存在一些爭議,例如:
模型蒸餾:DeepSeek 被指控使用 OpenAI 的數據來訓練模型,但要證明這一點需要確鑿的證據
成本:DeepSeek 聲稱 V3 模型訓練只用了 557.6 萬美元,但有分析認為,DeepSeek 的預訓練數字遠不及模型實際花費的金額◦
繞過 CUDA:DeepSeek 並未完全繞過 CUDA 生態系統,而是在 CUDA 的基礎上進行了優化
DeepSeek 的出現對全球 AI 產業帶來了多方面的影響
對閉源模型的衝擊:
DeepSeek 表明 AI 領域並不存在真正的護城河,這對 OpenAI 和 Anthropic 來說無疑是當頭一棒。DeepSeek 對閉源模型直接的衝擊就是價格,因為如果有更便宜但性能差不多的大模型,開發者和公司們會毫不猶豫地選擇。
對開源模型和社群的影響:
DeepSeek 給行業領頭羊們帶來了非常大的壓力,例如 Meta 為了應對 DeepSeek R1 的發布,成立了四個「War Rooms」作戰室,以確保即將發布的 Llama4 不落後於 DeepSeek。
對 AI 算力的衝擊:
DeepSeek 帶來了模型訓練和推理的新範式,降低了算力成本,刺激了整個生態對模型的使用和應用…。
關鍵提問與產業反思
- DeepSeek 是否會改變全球 AI 競爭格局?
- DeepSeek 讓開源 AI 變得可行,使企業能以更低成本部署 AI,這可能促使市場走向更多元的技術競爭模式。
- 開源 AI 是否真的能保持可持續發展?
- 雖然開源降低了成本,但也可能導致低質量 AI 產品充斥市場,影響技術生態的健康發展。
- 數據隱私與安全問題如何影響 DeepSeek 的全球化?
- DeepSeek 曾出現數據安全漏洞,這可能限制其進入對數據合規要求嚴格的市場(如歐盟與美國)。
若 AI 被用於犯罪,會導致社會大亂嗎?
AI 技術確實可能被用於非法活動,例如詐騙、毒品交易、賭博或軍事應用,但是否會導致社會大亂,取決於各國政府、科技企業與公眾的監管與應對措施。
可能的影響:
網路詐騙激增:由於 AI 能夠生成擬真文本、語音甚至影像,它可能被不法分子用於詐騙、假新聞、深偽技術等,進一步加劇社會混亂。
假新聞與輿論操控:透過 AI 自動生成大量假新聞,可能影響選舉、金融市場,甚至引發社會不安。
軍事應用爭議:AI 的推理與決策能力可能被用於戰爭決策、無人機控制、自動化攻擊等,這引發了對未來科技戰爭的擔憂。
助長非法團體犯罪模擬與教學:一旦開源,AI 技術可能被非法團體或地下組織修改與利用,或者全球各地個人到小團體,從AI裡學習犯罪方式,導致更多大量民眾受害,政府難以追蹤與有效監管。
📖 科技名詞解釋與比喻
🔗 混合專家結構(MoE):就像一個餐廳裡有許多專業廚師,當顧客點餐時,系統會選擇最擅長該菜餚的廚師來製作,確保最高效率與品質。
🎯 多頭潛在注意力機制(MLA):類似於一個人同時關注多個話題,讓 AI 能夠一次思考多個可能的答案,而不是逐步猜測。
🏆 群體相對策略優化(GRPO):像是一場多人合作遊戲,每個玩家學習最佳策略來提升整體表現,而不是僅靠個別指令行動。
🛠 開源模型:如同共享程式碼的工具箱,讓更多開發者能共同改進與應用技術,而非封閉的專屬產品。
💻 AI 計算資源市場:類似於電力市場,隨著 AI 模型變得更高效,所需的算力減少,整體使用成本下降。
🚀 大模型普及化:如同智慧型手機的普及,讓 AI 變得不再是少數企業的專利,而是更多企業與開發者能夠負擔並使用的技術。

