去可网 > 社会 > 正文

​“白菜价”始作俑者、大模型 “价格屠夫”DeepSeek是谁?

2024-05-27 22:00 来源:去可网 点击:

“白菜价”始作俑者、大模型 “价格屠夫”DeepSeek是谁?

图片来源:视觉中国

在众多 AI 应用眼花缭乱地涌入市场时,AI 公司深度求索(DeepSeek)上周公告 DeepSeekChat 已通过北京市生成式人工智能服务备案,或将很快向公众开放服务。

DeepSeek 由知名私募巨头幻方量化于 2023 年 4 月创立。与月之暗面、智谱 AI、Minimax、百川智能等获得大厂投资的 AI 初创公司不同,DeepSeek 与科技巨头间并无直接关系。但这家公司仍然被视为一匹可能改变国内 AI 市场格局的 " 黑马 "。

5 月初,DeepSeek 宣布开源第二代 MoE 大模型 DeepSeek-V2。据介绍,该模型在性能上比肩 GPT-4 Turbo,价格却只有 GPT-4 的仅百分之一,这也让 DeepSeek 收获了 "AI 届拼多多 " 的名号。

而直到本周,阿里巴巴和百度才争先恐后加入大模型价格战,DeepSeek 的掀桌子举动甚至比智谱 AI 和字节跳动对旗下大模型产品的高调降价更早。

高性价比或许是 DeepSeek 的显著优势,但随着诸多企业纷纷入局 AI 价格战,已经卷出 " 白菜价 " 的大模型很快变得不再稀缺,DeepSeek 又该走出怎样的商业模式来应对呢?

价格战的导火索渐失低价优势

DeepSeek-V2 推出后,DeepSeek 一度被 AI 圈称作 " 价格屠夫 "。

它的中文综合能力是目前开源模型中最强的,与 GPT-4 Turbo,文心 4.0 等闭源模型处于同一梯队。英文综合能力与最强的开源模型 LLaMA3-70B 处于同一梯队,超过最强 MoE 开源模型 Mixtral8x22B。而这些竞争者都背靠科技大厂,或者拥有科技业界明星团队。

相较于出色的性能,有分析公司直言 DeepSeek-V2 的价格 " 便宜得难以置信 "。该模型每百万 tokens 输入价格为 1 元、输出价格为 2 元,而 GPT-4 Turbo 每百万 tokens 的输入 / 输出价格为 72 元、217 元。

同为中国公司,尽管 DeepSeek 率先定下了大模型的低价,但在过去一周,关于价格战的讨论却更多地围绕字节跳动、阿里等行业巨头。

5 月 15 日,字节发布豆包大模型,其主力模型的定价为输入 0.0008 元 / 千 tokens,当时称较行业便宜 99.3%。阿里云周二宣布,通义千问对标 ChatGPT-4 的主力模型 Qwen-Long,API 输入价格从 0.02 元 / 千 tokens 降至 0.0005 元 / 千 tokens,直降 97%。百度随之公告,文心大模型的两款入门级主力模型 ENIRE Speed、ENIRE Lite 全面免费。此前,智谱 AI 入门级产品 GLM-3 Turbo 模型的调用价格也从 5 元 / 百万 tokens 降至 1 元 / 百万 tokens。

虽然国外 AI 公司仍将竞赛焦点放在技术的迭代升级和产品的应用场景上,但一些大模型今年也相继宣布下调价格。2 月底,法国人工智能企业 Mistral AI 发布大模型 Mistral Large,其输入、输出价格比 GPT-4 Turbo 便宜约 20%,成为 OpenAI 的强劲对手。自去年以来,OpenAI 已进行 4 次降价,5 月发布的 GPT-4o 价格较前一代模型降低了 50%。

降价有助于大模型快速抢占市场,争取更多的用户。而使用量越大,大模型也能被调用得更好。但并非所有玩家都有资格加入价格战,降价涉及到大模型的研发、训练、推理等成本的优化,一些中小企业会难以跟上大厂的脚步。

正如字节旗下火山引擎总裁谭待所说," 豆包模型的超低定价,来源于我们有信心用技术手段优化成本,而不是补贴或是打价格战争夺市场份额。"

对于 DeepSeek-V2 而言,定出低价的底气在于其架构的创新。该模型没有沿用传统的大模型架构,而是采用新的多头潜在注意力(Multi-Head Latent Attention)和 DeepSeekMoE 架构,在处理信息时能够更智能和高效,降低大模型的推理成本。

DeepSeek-V2 具有 2360 亿总参数,但处理每个 token 时只需激活 210 亿参数。这不仅能够减少内存使用,也能提高计算效率。一些大模型需要激活所有参数来提供响应,参数越多,计算成本也就越高。

AI 明星公司 Anthropic 联合创始人、OpenAI 前政策主管 Jack Clark 也关注到 DeepSeek-V2 的突破,并表示:"DeepSeek 组建了一支团队,他们对训练雄心勃勃的模型所需的基础设施有着深刻的理解。中国制造也将成为 AI 模型的发展趋势。"

此外,也有业界人士认为,DeepSeek 可能是中国几家大厂之外,拥有英伟达高性能 GPU 最多的公司。

随着头部厂商们陆续入局,大模型价格战越发声势浩大,创新能力或可成为 DeepSeek 参与竞争的资本。

不做应用做研究

除了开始卷价格,国内 AI 行业还卷起了应用的落地。如果说过去一年上演的还是 " 百模大战 ",2024 年则被认为将会是 AI 应用落地元年。

今年 3 月,月之暗面宣布旗下的 Kimi 智能助手已支持 200 万字超长无损上下文,随后拉动 Kimi 概念股大涨,反映出市场对于 AI 技术的商业化应用的信心。据 AI 产品榜数据,4 月 Kimi 访问量达 2004 万,超过百度文心一言的 1691 万。

横空出世的 Kimi 抢占风口后,巨头们也开始加速推出一系列 AI 应用。百度联合创始人兼首席执行官李彦宏多次表态," 卷大模型没有意义,卷应用机会更大。" 字节跳动更是一气推出十多款 AI 产品,从 "App 工厂 " 转型为 "AI 应用工厂 "。大厂们在推动大模型落地时大多遵循由内到外的逻辑,先基于 AI 重构内部产品,再实现对外的输出。

在一片 AI 应用浪潮中,DeepSeek 却显得有些安静。其母公司幻方量化的创始人梁文锋去年在接受媒体采访时表示,公司不会过早地设计基于模型的一些应用,而是会专注在大模型上。幻方的目标是探索 AGI(人工通用智能),认为语言大模型可能是通往 AGI 的必经之路,并且初步具备了 AGI 的特征,所以会从大模型开始。

梁文锋也承认,很多风投对于优先做研究、不做应用的策略有顾虑,希望能尽快实现产品商业化,这让 DeepSeek 很难获得融资。但其拥有的算力和工程师团队相当于 " 有了一半筹码 "。

有云计算专家提出,1 万枚英伟达 A100 芯片是做 AI 大模型的算力门槛。当中国云厂商受限于紧缺的 GPU 芯片时,幻方却早早押中了大模型赛道的入场券。据报道,除商汤科技、百度、腾讯、字节、阿里等科技巨头外,幻方也手握着超 1 万枚 GPU。

梁文锋在媒体采访中表示,幻方对算力的储备并不突然。在 2019 年,幻方就已投资 2 亿元自研深度学习训练平台 " 萤火一号 ",搭载了 1100 块 GPU。到了 2021 年," 萤火二号 " 的投入增加到 10 亿元,搭载了约 1 万张英伟达 A100 显卡。一年后,OpenAI 发布 ChatGPT 的公开测试版本,拉开全球新一轮 AI 热潮的序幕。

顶着高昂的研发成本,百度、阿里等头部玩家已开始大打价格战,抢占市场,期望有更多的真实使用场景以推进产品训练。而事实上率先掀起本轮大模型价格战,喊着 " 不做应用做研究 " 的 DeepSeek,却并没有在各家大厂密集召开降价发布会时发声,显得无心参战。尽管背后有幻方量化提供研发经费,DeepSeek 不计 ROI 的坚持究竟会导向领先,还是落后的未来呢?