DeepSeek蛇竄而出

一言以蔽之:DeepSeek被認為是打響了全球人工智慧競賽的第一槍。

DeepSeek橫空出世

DeepSeek

2025年的趨勢真的是AI,蛇年除夕最大的新聞就是DeepSeek(深度求索)橫空出世,其效能可媲美OpenAI,但訓練成本卻遠低於OpenAI(公司宣稱只花了550萬美元),造成費城半導體指數跳水大跌9%,其中台積電ADR跌了13%、輝達跌了17%、博通跌了17%,晶片相關股票無一倖免。

以往這類的新聞往往會被視為是造假,不會造成股票市場的波動,但這次不一樣的是,由於DeepSeek是部分開源的(模型參數權重是公開的,但訓練數據和完整程式並未公開),所以其效能已可複現,也被證實的確是不錯。

由於美國政府限制高階算力晶片出口到中國,然而DeepSeek顛覆了傳統算力至上的邏輯,因而造成華爾街的恐慌。當然還是有很多人懷疑,深度求索公司低報了訓練成本,而是利用非法走私取得的大量晶片來訓練模型。

不過股票市場的崩跌,顯然是過度反應了,歷史上已經多次證明,硬體成本的降低並不會縮小市場,反而會鼓勵軟體的大量開發,因而擴大市場並造成AI的普及,個人電腦就是最好的例子。

DeepSeek站在巨人的肩膀上

傳統上認為,AI模型的參數越多,性能就會越好,但DeepSeek打破了這個限制,用小參數模型打敗了大參數模型,DeepSeek是如何做到便宜又好用的呢?

以前ChatGPT,要自己去爬GitHub、Wikipedia等網站,得到很多資料,再從這些原始資料開始學習。DeepSeek-V3其實也和ChatGPT一樣是大型語言模型,但DeepSeek-R1就不一樣了,它利用DeepSeek-V3產生的資料來訓練,首次就省去了許多搜集資料的時間,其次是這些生成的資料本身就是高品質的(例如ChatGPT的回應總是很有條理),更適合於模型的優化。

DeepSeek-R1能有更好表現的原因就是是它使用了更高品質的數據來訓練,這種做法稱之為「Distillation」,就像「蒸餾」一般,清除掉noise,分離出所要的物質。

簡單地說,就是DeepSeek-R1站在巨人的肩膀上,自然能比較輕鬆。新聞報導,對此,OpenAI就氣得牙癢癢的。不過話說回來,歷史上文明的進步,不都是站在別人肩膀上嗎?(事實上ChatGPT問世後,也有許多創作者控告OpenAI,在未經同意下,將其作品用於AI訓練。)

早年的AI是監督學習,需要使用人類先標記好的資料集才能訓練,後來出現了無監督學習,不再需要給定人類事先標記過的資料集。現在則更厲害了,連資料集都可以換成其他AI模型提供的,以後AI模型之間互相學來學去,就像武俠小說中的輕功「左腳踩右腳、右腳又踩左腳,如此互踩,凌身而上」,AI一飛沖天。

DeepSeek的名字

之前有提過ChatGPT的發音取得不順,這次來看看DeepSeek(深度求索)。

英文『DeepSeek』這個字裡面有兩處連續的ee,都是長母音,所以並不好念。而中文『深度求索』四個字太長了,縮寫成『求索』則是很彆扭,縮寫成『深索』則像眉頭深鎖不吉利,縮寫成『深求』也許會好一點。

明初大儒方孝孺說:「從人講説乎仁義道德之旨而深求之。」(聆聽他人對於仁義道德的講解,並努力理解深層含義。)『深求』的意思就是深入探究,蠻吻合DeepSeek的意境。另外,『深求』音似『Central』,也有站在中央C位主導AI引擎的霸氣。