
OpenAI坐不住,说明中国大模型路走通了

国产大模型在春节期间的一轮轮产品更新,让 OpenAI 坐不住了。
来自国产大模型的这波竞争压力,甚至重新让部分海外同行担忧起美国 AI 的竞争力问题。
近期,前 OpenAI 高管、AI 初创巨头 Anthropic 创始人达里奥·阿莫迪 (Dario Amodei),罕见发布了一篇万字长文。在肯定 DeepSeek-R1 模型在特定基准测试中已逼近美国顶尖水平之外,阿莫迪认为 DeepSeek 的突破,更加印证了美国对华芯片出口管制政策的必要性和紧迫性。
而这轮国产 AI 力量中,在 DeepSeek 发布 DeepSeek-R1 模型的几乎同一时间,月之暗面也推出了 Kimi k1.5 新模型。
上述两款推理模型,均全面对标 OpenAI o1 完整版。其中,Kimi k1.5 凭借同时支持文本和视觉推理的特性,成为首个可以比肩 o1 完整版水平的多模态模型。
尽管 OpenAI 展现了下一阶段大模型的技术演进路线,但直到 DeepSeek-R1 和 Kimi k1.5 发布之前,国内一众大模型厂商均尚未推出能够对标 OpenAI o1 完整版的模型。它们的出现,成了国产大模型攻破 OpenAI 技术黑匣子的又一次实力展示。
更重要的是,相比 OpenAI o1 模型付费使用的限制,无论 DeepSeek-R1,还是 Kimi k1.5,都支持用户免费无限调用。
堪比 OpenAI o1 完整版的模型性能,加上免费调用的差异化竞争优势,DeepSeek-R1 和 Kimi k1.5 新模型,成了春节期间国内大模型对 OpenAI 发起突然袭击的两把尖刀。
借助春节舞台,完成某种后来居上式的战略调整,已演变为中国科技公司的保留节目。
2014 年春节前夕,微信首度推出红包功能,未能掀起太多水花。转折发生在 2015 年,借助与春晚合作,斥资 5 亿元推出“摇一摇”红包的微信,在除夕当天使得微信红包收发总量超 10 亿次,并在 2 天内完成了支付宝此前花费 10 年完成的工作——2 亿张银行卡绑定。
微信红包的此番逆袭,后来被马云在阿里内部称为是对支付宝的一场“偷袭珍珠港”,并促使阿里在 2016 也开始重金赞助春晚,通过“集五福”的形式大撒红包。
现在,被 DeepSeek-R1 和 Kimi k1.5 新模型突袭过后的 OpenAI,也不得不调整了自己的新品发布节奏。
在国产大模型的快速技术迭代和模型性能追赶压力之下,即便是 OpenAI,恐怕也受不了几次这样的突袭了。“我们会开发出更好的模型,但我们不会像往年那样保持那么大的领先优势了。”OpenAI CEO 奥特曼在 o3-mini 发布后的问答环节中说道。
A
DeepSeek-R1 和 Kimi k1.5 新模型一经发布,便在海外用户群中引发热议。
英伟达 AI 科学家 Jim Fan 第一时间发帖总结两大模型的相似之处,认为两者都简化了强化学习框架,同时提升了推理性能和效率,并评价两家公司所发表的技术论文,都堪称“重磅”级别。
伯克利人工智能博士,Huggingface 机器学习科学家 Nathan Lambert、科技大 V AK 等也纷纷试用 kimi,还有不少业内人士对这两款来自中国的产品进行了测评。
与 DeepSeek-R1 一样,Kimi k1.5 新模型同样展现出了详细的思考过程。
北京时间 1 月 31 日,苹果发布了新一季度财报,以此为契机,选中 Kimi k1.5 推理模型,输入提示词“写一篇苹果财报分析稿,其中尤其要关注中国市场的变化,以及苹果 AI 何时在国产 iPhone 中上线的情况”。
经过一段时间思考,Kimi 给出了苹果 2025 财年第一财季的业绩报告数据,并特意指出其中大中华区营收为 185.13 亿美元,同比下降 11%。
除了给出联网参考的 94 个网页信息之外,Kimi 还列出了自己的详细思考过程。
如果将大模型看作一个数学家,没有加入推理功能之前,大模型在证明了一个新的定理,或者解了一道新的数学题时,只会把答案写出来,不会把思考的过程写出来。但是,有了推理功能的加入,现在大模型就可以把原本只存在于数学家个人头脑中的思考过程,给尽可能完整呈现出来。
Kimi k1.5 推理模型的思考过程,颇有点“授人以鱼不如授人以渔”的作用,将其用来指导学生学习,或者辅助程序员编写代码等,都有了更强的实际用途,大模型从有用,逐渐变得真正好用起来。
更重要的是,相比 DeepSeek-R1,Kimi k1.5 还是 OpenAI 之外首个实现 o1 完整版水平的多模态模型。
在 Kimi k1.5 推理模式下,上传一张苹果最新一季财报的数据图表,并给出提示词“给出图中大中华区的营收情况,以及同比变化,并分析大中华区营收占比”。
Kimi 不仅读懂了图片中的营收数字,还通过列出数学公式的方式,准确算出了大中华的营收同比下降了 11%,且营收占比也从去年同期的 17%,下降至今年的 15%。
杨植麟曾在一次采访中解释道,长文本就是某种意义上的长推理,“如果我们想让 AI 从完成一两分钟的任务变成完成长周期的任务,