DeepSeek 的强大实力,在 AI 的竞技场上熠熠生辉。其最新的 R1 模型宛如一颗璀璨新星,在众多关键领域大放异彩。与 OpenAI 的 O1 等国际顶尖大语言模型同场竞技时,R1 模型毫不怯场,表现卓越。在推理这一核心任务上,DeepSeek 成功追平世界领先水平,以实力证明了自身的价值。
不过,我们也应保持理性与客观,它并非如部分营销号夸张吹嘘的那般 “拳打 OpenAI,脚踢其他竞品”,但其实力已然足够令人瞩目。
回顾我国大语言模型的发展历程,此前与国际领先水平大约存在两年的差距。而 R1 模型的出现,宛如一道曙光,大致弥合了这一差距。更为惊艳的是,DeepSeek 不仅在性能上实现了追赶,还在成本控制方面实现了重大突破。R1 模型的训练成本仅约六百多万美元,与 O1 模型训练一次动辄以亿美元为单位的高昂费用相比,DeepSeek 以极小的投入实现了与国际巨头相当的成果,堪称 “四两拨千斤”,再次彰显了我国在降本增效方面的强大能力。
此外,DeepSeek 的开源特性更是为其锦上添花。在大语言模型开闭源之争的历史长河中,闭源模型如 OpenAI、Anthropic 等,将内部参数权重视为商业机密,用户只能使用其提供的服务,却对核心内容一无所知;开源模型以 Meta(Facebook)的 Llama 等为代表,虽开放但在性能表现上往往稍逊一筹。
而 DeepSeek 的开源操作,彻底改写了这一局面,大幅提升了开源模型的档次,让开源模型在性能和应用上都达到了前所未有的新高度。表现出色、成本低廉且开源,这便是 DeepSeek 独一无二的优势。
DeepSeek 的成功并非偶然,而是工程技术创新的成果,主要体现在以下两个关键方面:
大语言模型参数众多,就像一座庞大复杂的知识宫殿,而用户需求各不相同,如同来自不同方向的探索者。MOE 把这座宫殿分成不同的子模型,每个子模型就像一位擅长解决特定问题的专家。根据用户需求,不用调动整个宫殿的所有资源,只需激活相应的专家子模型,这样既能提高运行速度,又能降低成本。
与之不同的是密集激活,即所有参数在每个推理步骤都参与,这就像患者看病时,无论什么病症,全院医生都进行检查,虽然全面,但效率低且成本高。
MOE 则像患者先挂号,根据症状找到对应科室医生,效率大大提高。然而,MOE 在实际操作中,精准选择正确的专家子模型是个难题,它依靠门控制机制,类似医院分诊系统,要实现不同专家的负载均衡。如果某些专家过度参与,而其他专家闲置,就会导致性能下降。
DeepSeek 在 MOE 方面表现出色,降低了成本,提高了速度,因为子专家模型参数量少,只是整个模型的一部分。
在推理层面,DeepSeek 对监督微调的依赖大大减少。一般模型训练需要人工准备大量高质量的标注数据,这催生了数据标注产业,也就是所谓的数据民工产业。DeepSeek 更多地运用强化学习,减少了对监督微调的依赖。高质量标注数据集成本高,这也是 AI 模型开发多为大公司所为的原因之一,DeepSeek 在这方面节省了很多成本。此外,DeepSeek 还采用了 FP8 混合精度训练技术等,但其中也有一些难以完全解释的“炼金术”成分。
减少监督微调、更多使用强化学习,一定程度上是因为其在 GPU 资源上相对缺乏,无法像 OpenAI 那样依靠大量资源“大力出奇迹”,反而促使其探索出更巧妙的方法,而且这个方法效果很好。
DeepSeek 的出现,如同一颗投入 AI 湖面的巨石,激起层层巨浪,对 AI 未来发展格局产生了深远影响。在开源方面,其开源特性意味着它有望发展成为一个生机勃勃的生态系统。OpenAI 等闭源公司,除付费使用其产品外,其他开发者无法基于其进行后续开发。若 AI 领域仅由少数闭源公司主导,必然走向垄断,开发者难以参与创新,用户只能被动接受更新与定价。
而开源的 DeepSeek,所有参数开放,开发者可自由部署、调试和开发,能发展出新功能与新产品,形成一个人人都可参与建设的生态系统。此前开源模型效果不及闭源,DeepSeek 证明了开源可以又好又便宜,这对闭源模型路线的公司产生了一定冲击,也难怪 OpenAI 的相关负责人在言论上都显得有些 “语无伦次”。
英伟达股票重挫 17%,惊人跌幅背后,DeepSeek 扮演了重要角色。DeepSeek 表明,打造优秀模型或许无需大量高端显卡。由于美国技术封锁,DeepSeek 母公司幻方量化手中的显卡最多 1 万张,且多为旧卡,与 OpenAI 的十万卡集群无法相比。
此前,在 AI 投资的叙事里,投资者普遍认为只有像 OpenAI 那样大量投入先进显卡,才能打造出优秀模型。AI 作为未来的大趋势,他们判断市场对英伟达显卡的需求会持续增长,基于这种预期,英伟达股价一路攀升,成为资本市场的宠儿,投资者纷纷买入英伟达股票,推动其市值不断膨胀,使其在科技股中占据重要地位。
但 DeepSeek 打破了这一传统认知。它的成功证明了,不依赖大量烧钱和高端显卡也能做出好模型。这一路线若流行起来,市场对英伟达显卡的需求势必下降。
当投资者意识到,AI 模型的发展并非只有依赖大量高端显卡这一条路时,他们对英伟达未来业绩增长的预期开始动摇。原本支撑英伟达股价的逻辑根基被动摇,资金开始从英伟达股票撤离,股价暴跌也就在情理之中。这也是对整个 AI 投资理念的一次冲击,过度依赖资源投入的发展模式,可能会在创新面前遭遇挑战,习惯 “大力出奇迹”,就可能忽略 “四两拨千斤” 的智慧。
AI 时代刚刚开启,未来充满无限可能,鹿死谁手尚未可知。但 DeepSeek 的成功,无疑让我们看到了与国际领先水平 AI 一较高下的希望,也为 AI 领域的发展注入了新的活力与思考,激励着更多的探索者在这片充满机遇与挑战的领域中不断前行。