DeepSeek终于丢了开源第一王座,但继任者依然来自中国
(来源:量子位)
几千人盲投,Kimi K2超越DeepSeek拿下全球开源第一!
歪果网友们直接炸了,评论区秒变夸夸打卡现场:

今天,竞技场终于更新了Kimi K2的排名情况——
开源第一,总榜第五,而且紧追马斯克Grok 4这样的顶尖闭源模型。

并且各类单项能力也不差,能和一水儿闭源模型打得有来有回:
甚至眼尖的朋友也发现了,唯二闯入总榜TOP 10的开源模型都来自中国。(DeepSeek R1总榜第8)

当然了,即使抛开榜单不谈,Kimi这款新模型过去一周也确实火热——
K2过去一周真热啊
公开可查战绩包括但不限于下面这些:
从实打实的数据来看,发布这一周里,Kimi K2在开源社区就获得了相当关注度和下载量。
GitHub标星5.6K,Hugging Face下载量近10万,这还不算它在中国社区的应用。


连AI搜索引擎明星创企Perplexity CEO也亲自为它站台,并透露:

甚至由于访问的用户太多了,逼得Kimi官方也出来发公告:

不过就在一片向好之时,人们关于“Kimi K2采用了DeepSeek V3架构”的质疑声再度升温。

对此,我们也找到了Kimi团队成员关于K2架构的相关回应。
总结下来就是,确实继承了DeepSeek V3的架构,不过后续还有一系列参数调整。
p.s. 以下分享均来自知乎@刘少伟,内容经概括总结如下~
一开始,他们尝试了各种架构方案,结果发现V3架构是最能打的(其他顶多旗鼓相当)。
所以问题就变成了,要不要为了不同而不同?
经过深思熟虑,团队给出了否定答案。理由有两点:
一是V3架构珠玉在前且已经经过大规模验证,没必要强行“标新立异”;二是自己和DeepSeek一样,训练和推理资源非常有限,而经过评估V3架构符合相关成本预算。
所以他们选择了完全继承V3架构,并引入适合自己的模型结构参数。
具体而言,K2的结构参数改动有四点:

最终得到的推理方案就是,在相同专家数量下:
就是说,这是一种更“精打细算”的结构调优。
而且这种放弃自己的模型架构路线,彻底走DeepSeek路线的做法,也被国内网友评价为“相当大胆”。
△来源:知乎网友@蛙哥
相关推荐
DeepSeek促AI开源浪潮涌动
为什么DeepSeek还未能撼动OpenAI
DeepSeek开源周:开源可能是不想赚钱,也可能是想推动更大变化
中国AI三支柱领跑全球,DeepSeek开源推动技术平权
全球最强开源AI大模型诞生:中国研发,成本只有Deepseek的30%
DeepSeek登顶140国榜首,免费开源的真相究竟是什么?
DeepSeek开源周观察:让所有人都能用起来R1
凌晨突袭!新版DeepSeek代码能力封神,Claude 3.7王座不保?
DeepSeek扔的第二枚开源王炸到底是什么?
DeepSeek开源周Day1:FlashMLA:大家省,才是真的省
网址: DeepSeek终于丢了开源第一王座,但继任者依然来自中国 http://www.xishuta.com/newsview139052.html
推荐科技快讯

- 1问界商标转让释放信号:赛力斯 95790
- 2报告:抖音海外版下载量突破1 25728
- 3人类唯一的出路:变成人工智能 25168
- 4人类唯一的出路: 变成人工智 24602
- 5移动办公如何高效?谷歌研究了 24302
- 6华为 nova14深度评测: 13155
- 7滴滴出行被投诉价格操纵,网约 11880
- 82023年起,银行存取款迎来 10773
- 9五一来了,大数据杀熟又想来, 9793
- 10手机中存在一个监听开关,你关 9512