DeepSeek衝擊AI股

理財周刊/新聞中心 2025-02-06 10:45

美國科技圍堵中國大陸再度出現破口,DeepSeek以四兩撥千斤之勢,在全球AI算力大戰中輕鬆搶得先機,砸錢拚算力會不會形成新泡沫風暴,成為市場關注焦點。

DeepSeek在台股農曆春節封關後才亮刀,2月3日加權指數開紅盤收跌-830.7點、收22694.71點,都說上市公司把散戶當韭菜割,最具代表就是宏達電,結果DeepSeek把一票AI科技大老的合照當背景,對照黃仁勳1月尾牙宴請35名科技大老的「破兆元」合照,根據媒體的宴請名單,2月3日收盤價:台積電跌-5.73%、鴻海跌-8.06%、廣達跌-9.83%、英業達跌-6.69%、緯穎跌-9.82%、日月光投控(矽品)跌-9.04%、技嘉跌-6.9%、華擎跌-3.7%、宏碁漲+3.9%、和碩漲+0.72%、微星漲+7.99%、華碩漲+6.92%等。

鴻蒙與DeepSeek突破美科技圍堵

DeepSeek這刀割得又準又狠,不輸2023年美國商務部長雷蒙多訪華期間,華為推出麒麟9000S七奈米晶片的5G手機Mate 60 Pro,中國網友P圖把雷蒙多當作Mate 60 Pro的最佳代言人。

美國在拜登四年任期對中國半導體嚴厲封鎖,結果中國從軟體突破,先有華為鴻蒙作業系統脫離安卓作業系統,2024年第一季在中國市佔率17%,首次超過iOS成為中國第二大行動平台,後有DeepSeek突破AI算力限制,這過程就像大禹的父親鯀治水,用圍堵的方法終究是百密一疏,反倒是中國把美國的科技制裁當練功房,關關難過關關過。

四兩撥千斤 顛覆高算力迷思

DeepSeek的橫空出世動搖了過去兩年輝達建構的高算力是AI的基礎建設的必勝投資邏輯,由於輝達從2023年到2024年連續五季營收翻倍成長,讓投資人以為AI就等於追逐高算力,而高算力就需要輝達的GPU,結果DeepSeek-V3預訓練僅需約270萬GPU小時,而同樣規模的開源LLaMA模型則需要約3000萬GPU小時,兩者效果差不多。且不論總成本是否真的較低,單單從軟體著手,就可以破解GPU搶購潮,不僅打臉美國的AI晶片禁令,也顛覆了過去兩年台灣股民追捧輝達GPU相關供應鏈的投資邏輯。

DeepSeek的效率革命主要是採用了(1)混合專家(MoE)架構,每次只啟動部分參數,減少計算量。(2)多頭潛在注意力(MHLA)技術降低記憶體佔用,提升效率。(3)FP8混合精度訓練,保證性能的同時,進一步提升計算效率,使得DeepSeek-V3模型在訓練時僅需同等規模開源模型約9%的算力,便能達到甚至超越其性能。

降低訓練模型成本 加速AI發展

簡單來說,DeepSeek-V3只會在需要時啟動部分「腦細胞」而不是全部,這樣就大大降低了運算資源的消耗,這個模型僅需啟動370億參數進行推理,而非動用完整模型的6710億參數,從而降低了即時運算的資源消耗。對照ChatGPT-4是1750億個參數強大語言模型,就可明白DeepSeek-V3所需的算力的確少很多,更明顯的對照是OpenAI o1每個月收費200美元,DeepSeek免費使用,難怪連微軟、亞馬遜與輝達都採用。

根據新浪財經報導,DeepSeek擁有5萬塊輝達GPU,對比OpenAI、谷歌、Anthropic等領先AI實驗室動輒超過50萬塊GPU相比,基礎建設的投入成本低到驚人。而DeepSeek能在兩年內以僅557萬美元開發出高性能的AI模型,與OpenAI的GPT-4模型訓練成本6300萬美元形成鮮明對比。

開放AI自習創新 震撼市場

DeepSeek撼動全球的關鍵不在於訓練模型成本較低,而是在於創新。過去包括OpenAI在內都認為AI模型要靠人工數據或合成數據來訓練思維鏈能力,但OpenAI的模型是封閉式,o1強推理模型發布後,它的推理過程根本不對外公布。但這次DeepSeek-R1完全靠機器自己通過強化學習,拚命地自己給自己出題,讓自己給自己解題。

這次DeepSeek-R1完全是無中生有,靠機器自己跟自己來強化學習,鍛鍊了複雜推理能力,然後再把這個能力蒸餾給DeepSeek-V3模型,實現了機器強化學習的創新之路,才是震撼全球的關鍵。

還記得擊敗職業棋士的人工智慧圍棋程式「AlphaGo」嗎?後來就是靠著機器強化學習來精進棋藝。DeepSeek藉由強化學習(RL)提升模型推理能力,就是微軟、Meta、亞馬遜與輝達肯定DeepSeek的地方。

1月31日微軟將DeepSeek-R1正式納入Azure AI Foundry,成為該企業級AI服務平台的一部分。同日,亞馬遜表示DeepSeek-R1模型現在已可以在Amazon Web Services上使用,輝達跟進提供了NVIDIA NIM,讓DeepSeek-R1模型可在NVIDIA NIM微服務預覽版上使用。

網路泡沫vs. AI算力過剩

過去兩年四大CSP搶購GPU會不會造成算力過剩呢?從千禧年的網路泡沫來看,當年市場對網路光纖的基礎建設過度樂觀,網路創新應用產品跟不上來,在2005年之前的股票市場處在擠泡沫的階段,直到2006年iPhone問世,社群應用,2010年電商模式成熟,虛擬世界的經濟才又蓬勃起來。

這兩年CSP對GPU的搶購潮就有點像千禧年對互聯網經濟的樂觀期待,最終還是要看符合消費者端的應用產品何時普及。

更多精彩內容 就在 [理財周刊1276期] 👈點紅字看更多

【延伸閱讀】


房地產相關新聞

留言討論區

相關閱讀推薦
相關閱讀推薦