世界论坛网 > 时事新闻 > 正文  
AI的天要塌了,50美元训练的大模型横空出世
www.wforum.com | 2025-02-07 09:33:34  你们的中产先生 | 0条评论 | 查看/发表评论

蒸馏大法好。

今天,AI行业突然传出一个爆论:

斯坦福用50美元就跑出了媲美DeepSeek的大模型。

我一开始是有点不相信的,之前即便是DeepSeek用600万美元训练大模型,都被认为是不可能,50美元,怎么可能?

但是后来我发现居然是真的。

主要找到两个信息:

1、跑出这个模型的人是李飞飞

李飞飞是业界公认的国内最顶尖的AI人员,号称AI教母,她16岁才去的美国,甚至表示以后得了诺贝尔奖的话要以中国人的身份领奖,有她做背书,可信度大大提升。

2、我找到了这个大模型论文原文

AI的天要塌了,50美元训练的大模型,就可以媲美DeepSeek?

AI的天要塌了,50美元训练的大模型,就可以媲美DeepSeek?

发在论文预印本网站arxiv上的(https://arxiv.org/html/2501.19393v1),那就更不可能有假了。

但我还是觉得震惊。

机翻了一下论文,终于了解了一个大概。

AI的天要塌了,50美元训练的大模型横空出世

这个模型叫S1,是怎么训练成功的呢?

先说结论:

S1是用知识蒸馏的方式通过低成本训练出了推理能力。

再详细来说:

S1本身是有一个大模型,名字就不说了,这个大模型的推理能力不太行,李飞飞团队是怎么做的呢?

蒸馏了1000条谷歌Gemini 2.0的数据,然后用16块H100 GPU、26分钟就训练出了推理能力。

当然,这个50美元只是云计算的费用,不包括购置显卡的硬件费用,因为硬件不是一次性使用,26分钟的使用摊薄费用也没必要。

接下来,由这个具备了推理能力的S1对原来的大模型进行监督微调,就这样之前的大模型瞬间有了灵魂脱胎换骨,直接可以媲美DeepSeek甚至是OpenAI。

我的理解就是:

推理能力是核心,一旦训练出来就一通百通。

这个研究其实跑出了一个新方向:

只要蒸馏的数据质量足够高,很低的成本就可以训练出高质量的推理能力,这简直把AI的天给翻了。

算力还是王道吗?知识蒸馏才是大法好啊。

现在我有点相信,DeepSeek可能真的只花了600万美元就训练出这么厉害的模型了。

这简直是开创了AI新时代。

以后小模型训练更方便了,甚至每个人都能训练自己的小模型了,信息平权的时代这么快就到了?

OpenAI现在堵知识蒸馏的口子还来得及吗?要不然干脆放开付费调用吧。

笑。

就这样。

(0)
当前新闻共有0条评论 分享到:
评论前需要先 登录 或者 注册
全部评论
暂无评论
查看更多
实用资讯
24小时新闻排行榜
大年初七,美菲“联军”冲向黄岩岛
苏联最差的轻机枪 到了中国却成了宝贝
俄罗斯“核巨兽”终于要“动了”
中国官宣:福建舰即将入列
美军B-1B飞越黄岩岛?中方战机迎难而上
48小时新闻排行榜
大年初七,美菲“联军”冲向黄岩岛
苏联最差的轻机枪 到了中国却成了宝贝
俄罗斯“核巨兽”终于要“动了”
中国官宣:福建舰即将入列
美军B-1B飞越黄岩岛?中方战机迎难而上
096核潜艇是中国“压轴级”武器
107编队穿越巴西兰海峡 速度明显放慢的原因
这一分钟压迫感是“万吨大驱”给的
韩国检查中国渔船 韩海警“心虚”对视中国
两架F-35C迫降松山机场 在黄岩岛对峙落败?
热门专题
1中美对抗2以哈战争3乌克兰战争
4美国大选5李克强猝逝6新冠疫情
7香港局势8委内瑞拉9华为
10黑心疫苗11“低端人群”12美国税改
13红黄蓝幼儿园14中共19大15郭文贵
广告服务 | 联系我们 | 关于我们 | 网站导航 | 隐私保护
Jobs. Contact us. Privacy Policy. Copyright (C) 1998-2025. Wforum.COM. All Rights Reserved.