DeepSeek 核心技術衝擊與爭議,團隊背景與創辦人梁文峰故事

DeepSeek,一家中國的人工智慧(AI)初創公司,在 2025 年初 發布的大型語言模型(LLM)DeepSeek R1 震撼了全球市場。該模型以其低成本 557.6 萬美元,對 AI 大模型的發展範式、GPU 算力市場及 AI 初創企業生態帶來潛在的顛覆性影響。

DeepSeek 的創新點在於其 混合專家結構(MoE)多頭潛在注意力機制(MLA),使其能夠在降低訓練和推理成本的同時,保持與 OpenAI GPT-4 相當的推理能力。此外,DeepSeek 採取開源策略,將模型權重公開,降低了 AI 技術應用的門檻,為更多企業和開發者提供了進入市場的機會。

然而,DeepSeek 的成功也伴隨著爭議,如 模型蒸餾訓練成本透明度數據安全漏洞 等問題,引發了業界的廣泛討論。這些挑戰不僅影響了其市場形象,也引發了對 AI 技術發展方向的深層次思考。

幻方量化:量化交易的基石

幻方量化是一家以人工智慧(AI)技術為核心驅動的量化投資基金。在量化交易這個領域中,AI 模型的應用越來越重要,這也促使幻方量化不斷加大在 AI 演算法和軟硬體方面的投入。有業內人士評論說,幻方更像是一家做機器學習、AI 的公司,只是副業用量化交易賺了錢。

「杭州深度求索人工智慧基礎技術研究有限公司」(簡稱深度求索)是幻方量化旗下的子公司。深度求索並不是一家全新的公司,而是在 2023 年 5 月,從幻方量化獨立出來的一個團隊,專注於 AI 大模型的研發。這個舉措賦予了 DeepSeek 更大的自主性和靈活性,使其能夠專注於 AI 模型的研發和創新,而無需受到量化交易業務的直接干預。DeepSeek 的公司名稱也表明其核心業務是人工智慧基礎技術研究。這包括模型架構的創新,演算法的優化,以及算力的提升。

DeepSeek 的定位不只是個參與者,也是開源生態的貢獻者。DeepSeek 積極參與開源社群,將其研究成果以開源的形式分享給業界,促進 AI 技術的普及和發展。DeepSeek 也在積極探索 AI 技術的商業應用,例如將其技術應用於金融、醫療、教育等領域。

幻方量化和深度求索之間的關係,是一種相輔相成的生態關係。幻方量化作為母公司,為深度求索提供資金、算力和技術支持,使其能夠專注於 AI 基礎研究。深度求索在 AI 技術上的突破,可以提升幻方量化在量化交易領域的競爭力,為其帶來更高的投資回報。

梁文峰是幻方量化和 DeepSeek 這兩家公司的創辦人。他於 1985 年出生,從小就展現出數學天賦。

梁文峰在 2002 年考入浙江大學電子信息工程專業,2007 年繼續攻讀研究生,專注於機器視覺的研究。2008 年全球金融危機爆發,當時還在讀碩士的梁文峰看到了量化交易的機會,開始嘗試用系統化、程序化的方式來研究市場、進行交易。

梁文峰畢業後並沒有像周圍人一樣去互聯網公司做工程師,而是躲在成都的廉價出租屋裡,不停地編寫 AI 演算法來選股,並在不同的市場場景中去嘗試。2015 年,梁文峰成立了幻方量化這個品牌。在 2015 年 A 股市場的巨大波動中,幻方反而取得了超額回報。

幻方量化有別於其他量化基金最大的不同,就是梁文峰對 AI 的執念2。2018 年,梁文峰明確了公司以 AI 為核心的發展方向,並且把整個產品線和資金管理都嫁接到以 AI 為核心策略的開發體系上了。當他在 2021 年就開始囤積數千張輝達 GPU 的時候,行業中沒人知道他想幹什麼。一位他的商業合作夥伴用「一個髮型糟糕的書呆子」來描述第一次見到梁文峰的感受。梁文峰更願意被當作工程師,而不是交易員。他幾乎每天都親自參與寫程式碼、跑程式碼。

DeepSeek 的低成本和高性能模型,打破了 OpenAI 等閉源模型在市場上的壟斷溢價。根據 Sensor Tower 的數據,DeepSeek 在美國免費應用榜單上名列前茅,並在全球範圍內持續火爆。這表明 DeepSeek 在 降低 AI 應用門檻推動 AI 技術普及 方面具有重要作用。

1. 核心技術創新

(1) 🔗 混合專家結構(MoE) MoE 就像餐廳裡的多位頂級廚師,根據需求分配任務,提高計算效率,降低計算資源浪費。DeepSeek V3 擁有 6700 億參數,但僅需激活 370 億參數,這意味著大幅降低了計算成本,同時保證了推理能力。

(2) 🎯 多頭潛在注意力機制(MLA) DeepSeek 通過 🔄 多 token 預測(MTP) 提高了模型的記憶能力,使其能夠一次預測多個 token,提升語言模型的運行效率。

(3) 🏆 群體相對策略優化(GRPO) DeepSeek R1 的訓練採用 GRPO 強化學習算法,讓模型基於已有知識進行優化,而非單純依賴標註數據,從而極大提升了訓練效率,降低了成本。

2. DeepSeek 模型版本

📌 DeepSeek V3:擁有 6700 億參數的大語言基礎模型。
📌 DeepSeek-R1-Zero:利用無監督數據與強化學習方式微調,提高數學與程式碼領域的推理能力。
📌 DeepSeek-R1:在 R1-Zero 基礎上增加監督數據,提升模型整體能力。

市場對 DeepSeek 存在一些爭議,例如:

模型蒸餾:DeepSeek 被指控使用 OpenAI 的數據來訓練模型,但要證明這一點需要確鑿的證據
成本:DeepSeek 聲稱 V3 模型訓練只用了 557.6 萬美元,但有分析認為,DeepSeek 的預訓練數字遠不及模型實際花費的金額◦
繞過 CUDA:DeepSeek 並未完全繞過 CUDA 生態系統,而是在 CUDA 的基礎上進行了優化

對閉源模型的衝擊
DeepSeek 表明 AI 領域並不存在真正的護城河,這對 OpenAI 和 Anthropic 來說無疑是當頭一棒。DeepSeek 對閉源模型直接的衝擊就是價格,因為如果有更便宜但性能差不多的大模型,開發者和公司們會毫不猶豫地選擇。

對開源模型和社群的影響
DeepSeek 給行業領頭羊們帶來了非常大的壓力,例如 Meta 為了應對 DeepSeek R1 的發布,成立了四個「War Rooms」作戰室,以確保即將發布的 Llama4 不落後於 DeepSeek。

對 AI 算力的衝擊
DeepSeek 帶來了模型訓練和推理的新範式,降低了算力成本,刺激了整個生態對模型的使用和應用…。

  1. DeepSeek 是否會改變全球 AI 競爭格局?
    • DeepSeek 讓開源 AI 變得可行,使企業能以更低成本部署 AI,這可能促使市場走向更多元的技術競爭模式。
  2. 開源 AI 是否真的能保持可持續發展?
    • 雖然開源降低了成本,但也可能導致低質量 AI 產品充斥市場,影響技術生態的健康發展。
  3. 數據隱私與安全問題如何影響 DeepSeek 的全球化?
    • DeepSeek 曾出現數據安全漏洞,這可能限制其進入對數據合規要求嚴格的市場(如歐盟與美國)。

AI 技術確實可能被用於非法活動,例如詐騙、毒品交易、賭博或軍事應用,但是否會導致社會大亂,取決於各國政府、科技企業與公眾的監管與應對措施。

可能的影響:
網路詐騙激增:由於 AI 能夠生成擬真文本、語音甚至影像,它可能被不法分子用於詐騙、假新聞、深偽技術等,進一步加劇社會混亂。
假新聞與輿論操控:透過 AI 自動生成大量假新聞,可能影響選舉、金融市場,甚至引發社會不安。
軍事應用爭議:AI 的推理與決策能力可能被用於戰爭決策、無人機控制、自動化攻擊等,這引發了對未來科技戰爭的擔憂。
助長非法團體犯罪模擬與教學:一旦開源,AI 技術可能被非法團體或地下組織修改與利用,或者全球各地個人到小團體,從AI裡學習犯罪方式,導致更多大量民眾受害,政府難以追蹤與有效監管。

🔗 混合專家結構(MoE):就像一個餐廳裡有許多專業廚師,當顧客點餐時,系統會選擇最擅長該菜餚的廚師來製作,確保最高效率與品質。

🎯 多頭潛在注意力機制(MLA):類似於一個人同時關注多個話題,讓 AI 能夠一次思考多個可能的答案,而不是逐步猜測。

🏆 群體相對策略優化(GRPO):像是一場多人合作遊戲,每個玩家學習最佳策略來提升整體表現,而不是僅靠個別指令行動。

🛠 開源模型:如同共享程式碼的工具箱,讓更多開發者能共同改進與應用技術,而非封閉的專屬產品。

💻 AI 計算資源市場:類似於電力市場,隨著 AI 模型變得更高效,所需的算力減少,整體使用成本下降。

🚀 大模型普及化:如同智慧型手機的普及,讓 AI 變得不再是少數企業的專利,而是更多企業與開發者能夠負擔並使用的技術。

Latest

Google 與好萊塢 Range Media 推「100 Zeros」計畫,科技巨頭跨界影視產業新篇章

「100 Zeros」還推出一個名為 「AI On Screen」 的短片開發計畫,由 Range Media 團隊選出五部圍繞人工智慧主題的短片進行資助與孵化

nano-banana教學│解鎖瘋迷全球的生成模型,帶你實作角色公仔、電商商品圖

繼之前的GPT生成吉卜力風格後,這次換Google 出大絕招了,悶了很久的nano-banana終於出爐大方出來搶流量跟熱度了,上次的GPT生成漫晝,算是讓很多沒用過GPT的人都開始認識什麼是AI的話,這次的google 就是讓人認識原來google也有出AI 也可以做到了!這次的nano-banana其實是Google AI studio 推出的Gemini 2.5 Flash Image 模型,它的爆火,就是解決了角色一致性的痛點,大部份人在使用AI生成最困擾的就是每次生成角色、或畫海報,都會有那麼一點不同,但若你想要講故事,或是生成出電商圖,你的角色與產品肯定得一模一樣,而nano-banana 就做到了這點,解決大家眼中最廣泛應用的困擾,在競技排行榜中也屢屢勝出,就這麼進去眾人視線中,受到關注,再不斷打磨後,也終於在8月底公開,真是可喜可賀,大家伙兒們又一個AI免費工具可以用。 接下來大家最想知道的,到底 Nano-Banana 能玩什麼?怎麼直接實作,很快的,看完介紹看教學,直接分享給你網友的實作提示詞,以及我自己的實作分享。第一個是角色公仔這個圖是網友在Reddit上使用 Nano Banana 生成 1/7 比例角色模型 第一招,就讓我們先用他的提示詞測試看看。 nano-banana教學 │ 角色公仔實作 第一步先進入 Google AI...

2025 COMPUTEX登場 聚焦AI驅動技術5/19 NVIDIA 輝達執行長黃仁勳率先北流演說揭序幕

台北國際電腦展COMPUTEX2025 展覽地點:南港展覽館一、二館 展覽日期:2025/5/20-5/23 台北國際電腦展COMPUTEX 2025 於5/20在南港展覽館一、二館盛大登場,展期自5/20開放至5/23為期4天。 2025 COMPUTEX共計來自25個國家與各地區1,400家廠商參展,展出攤位規模達4,800個。今年展覽主軸為「AI Next」,主辦單位聚焦三大領域:「智慧運算與機器人」、「次世代科技」與「未來移動」,反映AI技術擴散至通訊、車用、製造等產業的趨勢。 https://www.youtube.com/watch?v=qzHlOs7PCHk 影片來源: COMPUTEX 2025: AI NEXT 多位國際科技企業高層將於展期間發表Keynote演講,包括NVIDIA執行長黃仁勳、Qualcomm執行長Cristiano Amon、鴻海董事長劉揚偉、聯發科執行長蔡力行與恩智浦執行副總裁Jens Hinrichsen,主題涵蓋通訊、車用、邊緣運算與智慧製造等AI應用情境。 COMPUTEX 重磅主題演講資訊整理 (資料持續更新) 【5/19:11:00~12:30 NVIDIA CEO JASON KEYNOTE輝達執行長黃仁勳】 主題方向:分享AI與加速運算技術的最新進展與突破,以輝達在AI與加速運算領域的最新突破為核心,深度解讀旗下Blackwell GPU架構與RTX 50系列,並展示NVIDIA Omniverse如何透過即時3D協作平台,支持製造、汽車、氣候科學等領域的數位孿生與協同。預計將成為展會最受矚目的重頭戲。 https://www.youtube.com/live/ly2aznIb3zg?si=YJBqszlTkAmABj8- 影片來源: Computex Taipei 【5/19:14:00~15:00 高通CEO Cristiano】 主題方向:探討AI如何重塑手機、PC、車載系統等設備體驗,以及Edge AI在個人化與互動式生態系統中的角色。介紹Qualcomm在Edge AI晶片與5G整合上,如何加速從手機到車載的產業應用。針對即將到來的超薄筆電與混合裝置,分享Qualcomm在低功耗高效能平台佈局。 https://www.youtube.com/watch?v=EdrS3Zq3zFQ 影片來源: Computex...

韓國電影wonderland│留下一個不在人世間的他她,打造一個不在人世間的你

#打造一個不在人世間的你#留下一個不在人世間的他她 你會想訂購一個 wonderland 嗎? #Netflix#wonderland電影#원더랜드#韓國電影 由 #湯唯#秀智#朴寶劍#孔劉#鄭有美#崔宇植#鮑起靜 等人主演,主要講述在未來世界裡,人們透過AI、VR技術將已過世或病中的親人的身影、個性特徵、記憶等保存下來,再透過電話、視訊、或任何投影方式重現在你需要的時候。 這部電影2小時不到的時間就能迅速追完,據說這部片原本該在2021就上映了,但後來一些因素而延遲了,幸好今年韓國6/5也順利上映了,很高興 Netflix 也上架了,讓不在韓國的我們也能看到。 由於電影時數關係,3段主線、2段支線,並不能把故事好好說,情感好好舖,但沒關係,其他的橋段你可以自己在腦海補演一段,秀智因為男友朴寶劍生病中,而創造了另個他陪伴著她每一天,湯唯我猜測她是自己訂購的服務,擔心女兒跟媽媽而留下虛擬的自己,還有鄭有美為父母、崔宇植的父親生前為自己、成炳淑為了孫子訂購了服務。 他們都是為了什麼? 減少遺憾吧!我想。 畢竟使用 AI工具讓老照片動個3-5秒、跟chatgpt 4o 直接像朋友一樣聊天,已是成熟迅速隨時可用,再進階若是讓你的虛擬人變成你的已逝或不在身邊的親友呢? 我想很多人會想訂購的,包含我自己也是,但服務會留多久呢? 不確定,要看每個人當下的承受度。 如果停止傷心除了忘記或轉移注意力外還有這個方式的話,內心的苦痛很難被撫平的時候,與其天天傷心變成憂鬱,或許有時能夠短期利用這個方式少了些遺憾,也能讓傷口慢慢癒合。 桂志雄檢察官若有訂購這個服務就不用做惡夢啦! PS:如果只是來懷念或正途是可以,但拿來詐騙或作壞事就天下大亂了。 影片來源: Netflix https://www.youtube.com/watch?v=NFIRWIGxWl8

AI開發神器實作營超過百名工程師參與,GitHub Copilot 60秒寫出遊戲程式碼│微軟AI技術年會-DevDaysAsia2024

利用 AI github copilot 的協作,使用中文promt指令就能在60秒內輕易完成一個猜拳遊戲,進階更複雜的也是5分鐘內就火速完成