当前位置: 主页 > 新闻资讯 >

DeepSeek 被误读的 5 个假相,AI 大佬亲自揭秘

发布者:[db:作者]
来源:[db:来源] 日期:2025-02-08 08:36 浏览()
让咱们再温习一遍:小红靠捧,年夜红靠命。DeepSeek 曾经爆火了一个春节,红起来天然长短就多。尤其在海内局面变更盘根错节的情形下,DeepSeek 的中国血缘,给它招来了很多谎言。Stability AI 已经的研讨主管 Tanishq Mathew Abraham 昨天自告奋勇,以本人业内子士的身份了局,指出了 DeepSeek 极为特别的多少点:1.机能现实上与 OpenAI 的 o1 一样好,这是一个前沿模子,标记着开源真正遇上了闭源2.与其余前沿模子比拟,DeepSeek 以绝对较低的练习用度实现3.易于应用的界面,联合其网站跟利用顺序中可见的头脑链,吸引了数百万新用户参加除此之外,他更是针对多少年夜风行的谎言,写了长长一篇博文,剖析说明了缭绕在 DeepSeek 四处的(离谱)舆论。以下为博客文章,内容有所编纂:2025 年 1 月 20 日,一家名为 DeepSeek 的中国 AI 公司开源并宣布了他们的推理模子 R1。鉴于 DeepSeek 是一家中国公司,美国及其 AGI 公司存在种种「国度保险担心」。因为这一点,**对于它的过错信息曾经普遍传布。**这篇文章的目标是辩驳自 DeepSeek 宣布以来,很多对于 DeepSeek 的极其蹩脚的 AI 相干观念。同时,作为一个在天生式 AI 前沿任务的 AI 研讨职员,供给更有均衡性的观念。谎言 1:可疑!DeepSeek 是一家忽然冒出来的中国公司完整过错,到 2025 年 1 月,多少乎全部天生式 AI 研讨职员都曾经据说过 DeepSeek。DeepSeek 乃至在完全宣布前多少个月就宣布了 R1 的预览!任何传布这种谎言的人,很可能并不从事人工智能任务——假如你不涉足该范畴,却认为本人懂得这个范畴的所有,是荒诞且极端自信的。DeepSeek 的首个开源模子 DeepSeek-Coder,于 2023 年 11 月宣布。事先是业界当先的代码 LLMs(编者注:专一于懂得跟天生代码的言语模子)。正如上面的图表所示,DeepSeek 在一年内连续发货,到达 R1:?这不是一夜之间的胜利,他们提高的速率也不什么可疑之处。在人工智能开展如斯敏捷,且他们领有一个显明高效的团队的情形下,一年内获得如许的提高在我看来长短常公道的。假如你想晓得哪些公司在大众视线之外,但 AI 范畴内备受看好,我会推举存眷 Qwen(阿里巴巴)、YI(零一万物)、Mistral、Cohere、AI2。须要留神的是,它们不像 DeepSeek 那样连续宣布 SOTA 模子,但它们都**有潜力宣布杰出的模子**,正如它们从前所展现的那样。谎言 2:扯谎!这个模子的本钱不是 600 万美元这是一个风趣的成绩。这类谎言以为 DeepSeek 想防止否认他们有合法的幕后买卖来获取他们不该取得的盘算资本(因为出口控制),从而在对于模子练习本钱的实在性上扯谎。起首,600 万美元这个数字值得好好研讨。它在 DeepSeek-V3 论文中有说起,该论文是在 DeepSeek-R1 论文宣布前一个月宣布的:DeepSeek-V3 是 DeepSeek-R1 的基本模子,这象征着 DeepSeek-R1 是 DeepSeek-V3 加上一些额定的强化进修练习。以是在某种水平上,本钱曾经禁绝确,由于强化进修练习的额定本钱不被盘算在内。但那可能只会破费多少十万美元。好的,那么 DeepSeek-V3 论文中提到的 550 万美元,是不准确的吗?基于 GPU 本钱、数据集巨细跟模子巨细的浩繁剖析,曾经得出了相似的估量。请留神,固然 DeepSeek V3/R1 是一个 671B 参数的模子,但它是一个专家混杂模子,这象征着模子的任何函数挪用/前向通报只应用约 37B 参数,这是盘算练习本钱所应用的值。但是,DeepSeek 的本钱,是基于以后市场价钱估量的这些 GPU 的本钱。咱们现实上并不晓得他们的 2048 个 H800 GPU 集群(留神:不是 H100s,这是一个罕见的曲解跟混杂!)的本钱。平日,持续的 GPU 集群在批量购入时本钱会更低,因而乃至可能更廉价。然而这里有个成绩,这是终极运转的本钱。在这胜利之前,可能停止了很多在小范围的试验跟融化,这一局部会须要相称年夜的本钱,但这些并未在此处讲演。除此之外,可能另有很多其余本钱,如研讨员薪资。SemiAnalysis 讲演称,DeepSeek 的研讨员薪资风闻约为 100 万美元。这相称于 AGI 前沿试验室如 OpenAI 或 Anthropic 的高薪程度。平日,当报道跟比拟差别模子的练习本钱时,终极的练习运转本钱是最受存眷的。但因为蹩脚的论协调过错信息的传布,人们始终在争辩额定的本钱使 DeepSeek 的低本钱跟高效经营性子遭到质疑。这是极端不公正的。无论是从融化/试验的角度,仍是从其余 AGI 前沿试验室的研讨职员薪酬的角度来看,本钱都十分明显,但这些平日在如许的探讨中不被说起!谎言 3:这么廉价?全部美国 AGI 公司都在挥霍钱,看跌英伟达我以为这又是一个相称笨拙的见解。与很多其余 LLM 比拟,DeepSeek 在练习中确切效力更高。是的,很多美国前沿试验室在盘算上效力低下长短常可能的。但是,这并纷歧定象征着领有更多的盘算资本是好事。诚实说,每当听到如许的观念,我就明白地晓得他们不懂 scaling laws,也不懂 AGI 公司 CEO(以及任何被视为 AI 专家的人)的心态。让我就这个话题宣布一些见解。Scaling laws 标明,只有咱们持续将更多的盘算才能投入到模子中,咱们就能取得更好的机能。固然,AI 扩大确实切方式跟方面跟着时光的推移而产生了变更:最初是模子巨细,而后是数据集巨细,当初是推理时光盘算跟分解数据。自 2017 年原始 Transformer 以来,更多的盘算才能即是更好的机能的团体趋向仿佛仍在连续。更高效的模子象征着你能够在给定的盘算估算下取得更高的机能,但更多的盘算资本依然更好。更高效的模子象征着你能够用更少的盘算资本做更多的事件,但应用更多的盘算资本,能够做到更多!你可能有本人的对于 scaling laws 的见解。你可能以为行将呈现一个平台期。你可能以为从前的表示并不克不及预示将来的成果,正如金融界所说。但假如全部最年夜的 AGI 公司都在逃注 scaling laws 可能连续充足长的时光,以实现 AGI 跟 ASI。这是他们的动摇信心,那么独一公道的举动就是获取更多的盘算才能。当初你可能以为「NVIDIA 的 GPU 很快就会过期,看看 AMD、Cerebras、Graphcore、TPUs、Trainium 等」,blabla。无数百万种针对 AI 的硬件产物,都在试图与 NVIDIA 竞争。此中之一可能在未来得胜。在这种情形下,兴许这些 AGI 公司会转向它们——但这与 DeepSeek 的胜利完整有关。团体而言,我以为不强无力的证据标明其余公司会撼动 NVIDIA 在 AI 减速芯片范畴的统治位置,鉴于 NVIDIA 现在的市场统治位置跟连续的翻新程度。总体而言,我看不出为什么 DeepSeek 象征着你应当看跌 NVIDIA。你可能有其余来由看跌 NVIDIA,这些来由可能十分公道且准确,但 DeepSeek 仿佛不是我以为适合的来由。谎言 4:模拟而已!DeepSeek 不做出任何有意思的翻新过错。**言语模子的计划跟练习方式有良多翻新,此中一些比其余更主要**。以下是一些(不是完全的列表,能够浏览 DeepSeek-V3 跟 DeepSeek-R1 论文以获取更多具体信息):多头潜留神力 (MLA) – LLMs 平日是指应用所谓的多头留神力(MHA)机制的 Transformer。DeepSeek 团队开辟了一种 MHA 机制的变体,它既更节俭内存,又供给更好的机能。GRPO 与可验证嘉奖 – 自从 o1 宣布以来,AI 从业者始终在实验复制它。因为 OpenAI 对它的任务方法始终相称保密,各人不得不摸索种种差别的方式来实现相似 o1 的成果。有种种实验,如蒙特卡洛树搜寻(谷歌 DeepMind 在围棋中得胜所采取的方式),成果证实不如最初预期的那样有盼望。DeepSeek 展现了一个十分简略的强化进修(RL)管道现实上能够实现相似 o1 的成果。除此之外,他们还开辟了本人变种的罕见 PPO RL 算法,称为 GRPO,它更高效且机能更好。我想 AI 社区中的很多人都在想,咱们为什么之前不实验过这种方式呢?DualPipe – 在多个 GPU 上练习 AI 模子时,有很多效力方面须要斟酌。你须要弄明白模子跟数据集怎样在全部 GPU 之间调配,数据怎样经由过程 GPU 活动等。你还须要增加 GPU 之间任何数据传输,由于它十分慢,最好尽可能在每个独自的 GPU 上处置。无论怎样,有很多设置此类多 GPU 练习的方式,DeepSeek 团队计划了一种新的、效力更高且速率更快的处理计划,称为 DualPipe。咱们十分荣幸,DeepSeek 完整开源了这些翻新,并写了具体的先容,这与美国 AGI 公司差别。当初,每团体都能够受益,用这些翻新的措施来进步他们本人的 AI 模子练习。谎言 5:DeepSeek 正在「吸取」ChatGPT 的常识戴维·萨克斯(美国当局的 AI 跟加密巨子)跟 OpenAI 宣称,DeepSeek 应用一种称为蒸馏的技巧「吸取」ChatGPT 的常识。起首,这里的「蒸馏」一词应用得十分奇异。平日,蒸馏指的是在全部可能的下一个词(token)的全概率(logits)长进行练习,但这个信息乃至不克不及经由过程 ChatGPT 裸露出来。然而好吧,就假设咱们在探讨怎样应用 ChatGPT 天生的文本停止练习,只管这并不是该术语的典范用法。OpenAI 及其员工宣称 DeepSeek 本人应用 ChatGPT 天生文本并在此基本长进行练习。他们不供给证据,但假如这是真的,那么 DeepSeek 显然违背了 ChatGPT 的效劳条目。我以为这对一家中国公司来说,执法成果尚不明白,但我对此懂得未几。请留神,这仅限于 DeepSeek 本人天生了用于练习的数据。假如 DeepSeek 应用了来自其余起源的 ChatGPT 天生数据(现在有很多公然数据集),我的懂得是这种「蒸馏」或分解数据练习并未被 TOS 制止。只管如斯,在我看来,这并不增加 DeepSeek 的成绩。与 DeepSeek 的效力方面比拟,作为研讨职员,让我印象更深入的是他们对 o1 的复制。我十分猜忌对 ChatGPT 停止「蒸馏」有任何辅助,这种猜忌完整是出于 o1 的 CoT 头脑进程从未公然过,那么 DeepSeek 怎样可能进修它呢?别的,很多 LLMs 确切在 ChatGPT(以及其余 LLM)长进行了练习,并且在新抓取的任何互联网内容中天然也会有 AI 文本。总体而言,以为 DeepSeek 的模子表示精良仅仅是由于它简略提炼了 ChatGPT 的观念,是疏忽了 DeepSeek 在工程、效力跟架构翻新方面的事实。应当担忧中国在人工智能范畴的霸权吗?或者有一点?坦率说,当初跟两个月前比拟,中美 AI 比赛在本质上并不太多变更。相反,外界的反映相称剧烈,这确切可能经由过程资金、羁系等方面的变更影响团体 AI 格式。中国人始终都在人工智能范畴存在竞争力,DeepSeek 当初让他们变得无奈疏忽。对于开源的典范论点是,因为中国落伍,咱们不该该公然分享咱们的技巧,让他们遇上。但显然,中国曾经遇上了,他们现实上良久从前就曾经遇上了,他们在开源方面现实上处于当先位置,因而不明白进一步收紧咱们的技巧,现实上的辅助能否有那么年夜。请留神,像 OpenAI、Anthropic 跟 Google DeepMind 如许的公司确定有比 DeepSeek R1 更好的模子。比方,OpenAI 的 o3 模子的基准测试成果相称令人印象深入,他们可能曾经有一个后续模子正在开辟中。在此基本上,跟着像星门名目以及 OpenAI 行将到来的融资轮等主要额定投资,OpenAI 跟其余美国前沿试验室将领有充分的盘算才能,以坚持他们的当先位置。固然,中国将向人工智能开展投入大批额定资金。以是总的来说,竞争正在升温!但我以为,美国 AGI 前沿试验室坚持当先的途径依然相称有盼望。论断一方面,一些 AI 人士,尤其是 OpenAI 的一些人,试图淡化 DeepSeek。而另一方面,一些批评家跟自称专家对 DeepSeek 又反映适度。须要指出的是,OpenAI/Anthropic/Meta/Google/xAI/NVIDIA 等并不就此垮台。不,DeepSeek (很可能)不在说他们所做的事件上扯谎。无论怎样必需否认的是:DeepSeek 应失掉承认,R1 是一个令人印象深入的模子。原文链接:https://www.tanishq.ai/blog/posts/deepseek-delusions.html
分享到