本文来自微信公众号:新浪蜂鸟,作者:孙宇,编辑:余乐乐,原文标题:《新浪蜂鸟 | 大模型从业者的理性与感性:疯狂的时代正在过去》,题图来源:AI生成
本文来自微信公众号:新浪蜂鸟,作者:孙宇,编辑:余乐乐,原文标题:《新浪蜂鸟 | 大模型从业者的理性与感性:疯狂的时代正在过去》,题图来源:AI生成
这是中国互联网历史上人工成本最高的行业:应届生年薪收入即可高达百万,入职硕士起步,多数岗位甚至仅限博士。
这也是中国互联网历史上人工成本最低的行业:头部公司开始冲击十万卡规模,这意味着数十亿美元的算力投入。
这就是国产大模型创业公司的研发人员们正在面临的终极困境,一方面他们非常重要,一方面他们又不那么重要。
在过去两年时间里,大模型的热浪正席卷整个科技圈。从业者们将其视为推开下一个20年科技行业大门的钥匙,蕴含着无数机会,他们期待着在这里生长出下一个BAT,并将技术真正变为财富。
近日,“新浪蜂鸟”对话几位正在或曾在国产大模型创业公司工作的员工,尝试记录下在这接近两年时间里,这些彷徨、进击者们身上正在发生的故事。
交流过程中,几乎所有人都重复过这样一句话,“大模型可能是中国科技公司未来十年内遇到的最好机会。”
但每个人对这个机会的理解却完全不同:
“短时间内看不到(盈利)机会,正在考虑换个赛道。”
“还是大厂更稳定,不如回流。”
“干成这件事,能青史留名,失败了也没有坏处。”
三种不同的回答,或许就是中国大模型创业公司们能够最终交出的答案,放弃、被收购以及,一夜成名。
被挤爆的邮箱
2023年年初,已经在某互联网大厂里待了接近十年的金阳决定寻找新机会。
在属下眼里,金阳是超级技术“大牛”,校招进入该公司后仅一年时间内就连升三级,打破公司原有的升级“潜规则”;随后又独立拉起一支小团队,独当一面,在几次部门业务变动中岿然不动。
但在2022年年底,金阳却感到了一丝寒意,他所在的事业部不断裁员。
更重要的是,公司抽调部分技术人员专攻大模型,金阳做了调组申请,却未被批准。
此时,由ChatGPT引发的人工智能风潮刚刚从大洋彼岸刮向国内,国产大模型行业忽然爆发,占据舞台中央的除了传统大厂百度、阿里、腾讯、字节跳动外,诸多创业公司也开始进场。
这一阶段在当时被媒体称为“百模大战”,不过金阳却对作者表示,国内能够真正自主训练基础大模型的企业最多时也未超过30家,“在这30家里,能够真正完成通用大模型开发的不足10家。”
投资人常兵则对作者表示,在2022年年底、2023年年初美国和中国大模型公司呈现出百花齐放的共同特点,但经过两年优胜劣汰,资源正在向头部玩家不断聚拢,“目前美国仍在持续开发通用大模型的仅剩下五家,OpenAI、Anthropic、Meta、谷歌以及马斯克旗下的xAI;中国方面以商汤、旷视、云从与依图科技为代表的AI四小龙退场,取而代之的是以百川智能、零一万物、智谱AI、MiniMax、月之暗面与阶跃星辰为代表的六家大模型独角兽企业。”
内部调岗失败的“大牛”金阳很快被大模型创业公司们盯上,一夜之间他的邮箱里多了很多猎头发来的邮件,“以前也有其他互联网大厂或者创业公司发来邀请,但2023年初时这样密集确实非常少见。”
离开还是留下?金阳很快就做出了决定,“公司还在持续优化,未来难测,大模型才是未来几年里最好的机会。”
和他一起离开的还有六个人,这也是去年上半年大模型创业公司搭建队伍的基本模式,从大厂成建制的带走相关开发团队,“大模型开发需要极高的技术背景,至少在去年上半年,这批人才几乎都在大厂。”
尽管目前大模型创业公司均已开始进行校招,但是从大厂接手成熟员工仍然是一个重要的招聘方式,“我手里还有几个招聘名额,方向还是瞄准大厂,即插即用。”
不过金阳也坦承,现在在大厂挖人可能性逐渐降低,阿里、百度、腾讯、字节的大模型团队都在2022年年底以及2023年上半年重新补签了一遍竞业协议。
无疾而终的两连跳
2024年年初,凌辉从一家大模型创业公司跳槽去了大模型六小虎其中一家,“原来那家融资太不顺了,感觉可能要出问题。”
他的职业生涯开始于2021年,硕士毕业后顺利进入某大厂实习并最终转正,年薪为40万。当时凌辉还觉得自己是一个幸运儿,因为彼时就业情况糟糕,大厂频频裁员且减少校招名额。
这份幸运感在大模型的狂风吹来后变成了悔意,“当时不应该因为焦虑就业而没有继续读博。”看到自己同门师弟在博士毕业后拿到接近80万年薪时,凌辉觉得自己也应该换个环境。
和几位师兄弟沟通后,凌辉敏锐的发现,在春招以及秋招过程中,大厂往往采用“掐尖”模式进行招聘,“只有在相关专业前5%的应届生才能得到机会,硕士基本上是最低门槛。”凌辉将这种模式称为,“只选贵的不选对的。”
大厂光环以及高工资的确让大厂在抢夺大模型人才的争夺战中身位领先,如百度启动的“AIDU计划”、腾讯青云计划中的“AI大模型招聘单独通道”、字节旗下豆包大模型团队设立的“top seed”种子计划,即便是后起之秀美团也推出了“北斗计划”。
但对于凌辉这样有一定技术经验但又不是顶尖人才的求职者来说,以六小虎为代表的创业公司或许更为适合,“创业公司更看重专业对口,最好有工作经验。”
一位同门师兄曾经的经历是凌辉期许的目标,2011年时这位师兄在一年时间里历经三家团购网站并最终被挖进阿里,年薪上涨四倍有余,目前是阿里某部门的M4(总监)。
不过在常兵看来,大模型行业与中国历史上几乎所有的互联网行业都不一样,“中国互联网公司喜欢烧钱挖人,因为行业最强烈的需求是人,多一个员工就多一个产出;而大模型行业的核心是在极少量顶尖人才与基础算力投入,多一个人和少一个人的差别很小。”
据脉脉相关数据显示,在2023年与2024年期间最为受大模型行业欢迎的人才依然是NLP算法工程、深度学习等底层技术人才,而中低层算法工程师跳槽时薪水几乎不会有什么变化。
报告显示在从事⼤模型相关⼯作后,仅有一半从业者实现涨薪,其中涨幅50%以上占⽐仅为16%。
值得关注的是,今年10月中旬字节跳动大模型训练被实习生“投毒”事件让行业选择员工时多了一丝谨慎。
据作者了解,该事件发生在商业化团队,因实习生田某某对团队资源分配不满,利用HF漏洞,通过共享模型注入破坏代码,导致团队模型训练成果受损。
11月底时,字节跳动起诉该实习生,诉讼请求为800万侵权损失加合理支出2万元。
经历此事件后,某大厂负责相关招聘的人员对作者表示,现在对于大模型相关的招聘其实已经非常谨慎,尽管放出的岗位很多,但如果达不到要求,“宁可空着。”
凌辉最终选择离开这个行业,目前仍在寻找工作的他对大模型只有一个评价,“(目前)不是一个好机会。“
大厂小创新,小厂大创新
和金阳、凌辉一样,夏明也来自某家互联网大厂,在2023年上半年和自己的上级一起跳槽到了大模型六小虎中的一家,“ xx(原公司)升职通道已经基本上关闭了,大模型才是中国互联网公司难得的机会。”
但才加入新公司不久,夏明就感觉到了迷茫,“待遇的确得到提升,但实在太累了,几乎每天都加班到10点甚至更晚。去年年底公司开始大小周,没有任何人有反对意见。”
在作者与某六小虎公司一位负责招聘的人员对话中,该人员介绍,尽管公司融资情况良好、目前也有业务收入,但招人的过程依然“不顺利”,“在面试过程中,很多求职者依然对大模型的未来抱有疑虑;同时,一些员工也因为工作太累觉得看不到希望而流失。”
最终夏明回到了他原来工作的大厂,接替了原来领导离职时留下的位置,“安稳、熟悉,每天大部分时间都用来应付内部沟通,反而更自由。”
如同夏明做出同样选择的人并不罕见,今年下半年,序智科技创始人秦禹嘉、零一万物模型预训练负责人黄文灏先后加入字节跳动,而零一万物的联合创始人李先刚则被爆出已回到原公司贝壳。
而在海外,一些大模型创业公司人员也在回流大厂。今年11月底,谷歌大模型重要参与者Yi Tay在离职创业一年半后宣布回到谷歌。
值得关注的是,谷歌在此前还曾以25亿美元的超高估值带走了AI独角兽Character.AI的核心技术团队,其中包括两位明星创始人Noam Shazeer和Daniel De Freitas。
值得关注的是,在进入2024年后国内互联网大厂对大模型的态度变得没有那么激进。常兵对作者表示,“现在大厂相对比较克制,更倾向于用投资进行资源置换确保不掉队,自己投入大量资源的动力不足。
比如某大厂最近开放的大模型,核心内容是将自己的独家资源拿出来搜索,这件事的本质是开放而不是大模型。”
“大厂小创新,小厂大创新现在几乎就是大模型圈里的共识。”常兵如此对作者表示。
据作者不完全统计,在国产大模型六小虎中,阿里巴巴已投资了除面壁智能以外的其他五家,腾讯则投资了百川智能、MiniMax、智谱AI、月之暗面,其中后两家的投资名单中也有美团出现。
随着腾讯、阿里多位大模型高管先后离职,目前在大厂中仅存字节跳动仍对大模型持有激进态度。脉脉数据显示,2021年以来,字节跳动连续第四年位居新发布AI岗位数量第⼀,在多个大厂中对大模型人才的招聘指数最高。
今年开始,字节豆包的广告在小红书、B站甚至百度上无处不在,夏明对作者介绍,豆包的日活应该已经在“千万级别”,“这个投放量别说大模型六小虎,其他大厂也没有一个能做到的。”
坚守者仍众
除了回归大厂,大模型行业仍在不断流失人才。
今年7月,阿里大模型元老、通义千问奠基性人物杨红霞从字节跳动离职,入职香港理工大学担任电子计算机系教授;
同样在下半年,月之暗面多位出海产品负责人离职创业,而在年初时他们还失去了大模型产品负责人王冠;
MiniMax“星野”产品负责人张前川在近日淡出公司一线管理事务,改任产品顾问;11月下旬,腾讯杰出科学家、混元大模型技术负责人之一刘威正式从腾讯离职。
但更多的人仍在坚守,2017年年中何方从某大厂离职,随后一直活跃在人工智能行业,在先后加入AI四小龙中的两家后,2023年年初时从某社交平台跳槽至大模型六小虎中的一家并工作至今。
“从来没有这么忙过,”最近一个月何方几乎每天都加班到10点以后,“大模型绝对是现在中国互联网企业里最忙的,xxxx(大模型六小虎另外一家)前一段不知道为什么每天都能正常下班,但最近又恢复了每天加班的常态。”
脉脉数据显示,超过65%的大模型从业者每周工作超过50小时,接近三分之一的从业者每周甚至工作超过60小时。
“最大的问题是ChatGPT5.0还没有公布,所以大家不知道下一个阶段往哪里走,只能在原有的基础上不断深化。”何方的观点得到了常兵认可,“已经有大模型创业公司开始进入自己擅长的行业,但目前大模型创业公司还是以训练通用大模型为主。”
好消息是,尽管大模型六小虎在过去一年里减少了部分员工,但几乎都集中在运营部门,技术研发几乎没有人员流失。何方对作者表示,“大模型最烧钱的不是人力成本,而是训练成本和算力投入。因为大家都还没跑通模式,所以每家公司都还控制在几百人这个规模。如果未来国内大模型公司能有一个相对比较成熟的商业化模式或用户模式,甚至还有可能继续进行大规模招聘。”
坚守者们更关心的是行业的未来,何方所在的研发团队经常会在加班间隙一起讨论三个问题,“能不能卖?卖给谁?怎么卖?”
没有答案。
这样的讨论场景在此前的AI创业公司里较为罕见,“与AI四小龙时代不同,大模型创业公司在创业之初很早就开始考虑商业化以及国际化业务。”常兵对作者介绍,“而这个行业的求职者最为关注的也不仅仅是大模型技术的发展以及公司融资情况,而是会考虑公司的大模型业务是否有落地场景。”
“明年年中或许是个分水岭,大模型或许是个很厉害的产品,但也可能会像人脸识别一样变成一个通用技术。”有过人脸识别从业经验的何方如此对作者表示。
一场猛烈的价格战
今年年中,大模型行业猝然爆发了一场凶猛的价格战。
5月初,私募巨头幻方量化旗下AI公司DeepSeek宣布开源第二代MoE大模型DeepSeek-V2,百万tokens只需1元;大模型六小虎之一的智谱AI随后跟进,价格直接降至原来五分之一;价格战的参与者还有几乎所有大厂,字节跳动、阿里、百度、腾讯以及科大讯飞也纷纷降价。
这场价格战被常兵评价为两个字,“可笑”,“互联网行业价格战基本出现在公司跑马圈地阶段,即在大家都很熟悉的领域,通过价格优势来打击其他对手,获得规模效应。但大模型现在根本谈不上稳定收入,价格战毫无意义。”
在常兵看来,大模型公司发起价格战核心原因无非两点,为大厂其他业务求利润或创业公司求用户。
对于大厂来说,价格战仅仅局限在token降价,下游企业在获取大模型API后需要通过投喂数据、模型微调等方式进行优化和部署,这部分成本没有任何变化。以阿里旗下Qwen-Turbo大模型为例,百万级别token仅需要2元,但继续训练则至少需要花费30元,具体部署时每月费用更是高达2万。
百度云千帆大模型平台也与之类似,尽管大模型token可以免费调用,但后期相关环节均需要单独付费且价格不菲。
而在大厂发起大模型价格战背后,云计算业务成为了实际获利方。百川智能发布会上,创始人王小川表示,(价格战)根本目标不是为了卖大模型本身,而是带动整套云服务销售。猎豹移动董事长兼CEO傅盛也在朋友圈发文称,这次价格战,降得最凶的都是有云服务的大公司,通过大模型来获取云客户,羊毛出在猪身上,降得起。
对于大模型创业公司来说,发起价格战的根本目的也不是跑马圈地,本质上“是为了让客户体验模型能力”,常兵对作者表示,越多人用对大模型公司越有利,“首先是可以让B端客户体验模型能力并在本地部署等高净利业务完成付费,同时通过C端用户的使用,对大模型进行进一步优化。”
价格战后,行业的竞争格局产生了细微变化。
下半年时,有消息称有着大模型六小虎中已有两家正在放弃预训练模型,缩减预训练算法团队人数,将业务重心转向AI应用。
金阳和何方先后对作者证实了这一消息,金阳所在的大模型公司正是被外界传闻中放弃预训练的一家。不过金阳也对作者强调,公司并未完全放弃预训练模型,只是暂时更多尝试AI应用,“说实话,谁也不知道未来会发生什么,所有的大模型公司都还在碰。”
这样的回应并不让人意外,所有通用大模型核心就是预训练,是决定模型性能最关键的内容,也是所有模型厂商最核心的技术壁垒。
金阳对作者表示,通用大模型研发很像九年义务制教育,必须要全面学习基础知识,才能进入大学选专业乃至未来就业环节,“如果大模型公司放弃预训练,转向应用,就意味着在基础知识还未夯实的情况下进入大学。”
To B or not to B
当通用大模型公司把手放在转向灯的按钮上准备按下时,心头浮现的疑问是,转型应用层后,无论to B还是to C,公司还能像过去两年一样,持续获得融资和人才吗?
一个残酷的事实是,大模型公司可能快撑不住了。
数据显示,在过去3年时间里大约有2.6万家大模型创业公司融资超过3000亿美元;而在中国市场上,六小虎们的融资也是以数亿美元进行计算。但随着AI能力快速进化,训练成本也呈指数性膨胀趋势。
Anthropic公司联合创始人兼首席执行官Dario Amodei在一场公开讨论中透露,Claude 3模型训练费用已高达约1亿美元;正处于研发阶段并预计于2024年底或2025年初面世的新一代模型,其训练成本更是逼近10亿美元。
马斯克曾估算,ChatGPT5.0训练可能需要3万至5万张H100,仅芯片成本就超过7亿美元,约等于一家独角兽企业的一大半市值。
据Amodei预测,到2025年或2026年,训练最新大语言模型的成本将达到50亿至100亿美元。
仅极少数财力雄厚的大公司及其合作伙伴有能力构建这些基础模型。
这意味着大模型创业公司们需要继续融资,或至少有一定程度的变现能力。
比如To B?
在今年7月举办的一场大模型会议中,与会的大模型创业企业几乎都未提及通用人工智能,而是纷纷讨论如何落地。
但至少在最近一两年,to B并不是一个成熟的答案,金阳和何方均对作者表示,目前大模型只能在某些数字化已经成熟的行业进行重点突破,“比如金融、医疗、互联网以及能源,成规模复制到所有行业几乎不可能。”
与美国同行完全不同,美国大模型公司可以输出相对标准、单一的产品,因为各行业数字化程度较高,而在国内,大模型创业公司们往往需要面对各行各业的定制化需求以及数字化程度完全不一致的窘境。
更麻烦的是,随着美国大模型企业不断开源、国内大厂不断发动价格战,大模型创业公司通过to B赚钱的方式愈发艰难,“卖的越多,赔的越多。”
何方对作者表示,“公司现在上线一些业务,都是悄悄地不做宣传,甚至app都没有上线各大应用市场。”
那么,Not to B?
六小虎之一的MiniMax给出了不错的答案,在海外市场。“内部开会沟通时显示MiniMax已经处于盈利状态,”金阳对作者表示,“营收大部分来自聊天机器人社交应用Talkie。”根据MiniMax公开表示,其计划在今年实现7000万美元即约5亿元人民币的营收。
这也是中国互联网公司们的成熟路径,以社交、支付等日常应用打造一个超级App,即人工智能时代的微信、抖音或者支付宝。尽管金阳、夏明和何方均对此抱有期待,但是不太看好,“国内在短时间内不可能产生一个所谓的超级app,国外用户有良好的订阅习惯,但国内用户更习惯免费。”
大模型的疯狂似乎正在过去,也没人能真正预测未来,好消息是,在这些仍在坚守的开发者眼中,国产大模型绝不会成为下一个无疾而终的元宇宙。
“如果能把这件事做成了,”何方的眼里依然有光,“我们可能就会成为中国科技发展史上最值得纪念的一批人。”
(应被访者要求,金阳、凌辉、夏明、何方、常兵均为化名,同时应被访者要求,部分大厂名称、部分大模型创业公司名称隐去)
支持一下 修改