1 1 2 2 3 3 4 4 5 5 文集 深度 号外 热文 时间线
小红书怎么一夜成为全世界网友都爱的翻译软件?
2025-01-20 20:26

小红书怎么一夜成为全世界网友都爱的翻译软件?

本文来自微信公众号:爱范儿 (ID:ifanr),作者:爱范儿,题图来自:AI生成

文章摘要
小红书凭借新翻译功能迅速风靡全球。

• 🚀 翻译功能上线速度快,表现优异

• 🤖 结合大语言模型,准确处理多种语言和文化术语

• 🌍 通过负样本学习提升小语种翻译能力

全球人民翘首以盼,终于在上个周末,把小红书的翻译功能盼来了!



一些打开方式和须知如下:


  • 升级到最新版本;


  • 尝试修改自己的语言设置,包括小红书设置和手机系统设置;


  • 目前只支持单一语言的翻译,如果是中英夹杂,或者带有表情包,不能成功触发;


  • 还是没反应的话,有网友提出了“杀后台大法”:评论区任意发一句英文,然后退出后台,再重新打开小红书,就会出现翻译功能。


本文截图来自小红书用户,用户名如图所示,下同


太快了,小红书你有手速这么快的程序员进入公司,tt用户表示,从来没见过速度这么快的更新,这就是传说中的中国速度吗?



全世界人民都很开心,除了有道词典。



虽然短短一周时间就上线,但翻译的表现出奇的好,这下跨国冲浪简直如有神助。



什么u1s1啦,yyds啦,cpdd啦,这些基于拼音的缩写全都能准确领悟,并且标注出来。



有一说一,隔壁同事表示她都不知道cpdd是什么意思——人类不如GPT的又一铁证。



小红书你到底是在做翻译还是在做梗百科!这一波的额外效果是,顺便把方言也给翻译了。



甚至如果原文中有错误,不仅不会影响翻译,小红书还会贴心注解好。



你是真的为了我学英语在考虑,泪目。


很明显,这次小红书翻译功能的背后有着大语言模型的支持,网友们迫不及待地开始了对背后模型的调戏。


比如先浅浅做个翻译,然后写几行诗。



还有浅浅做个翻译之后,总结一下今天的新闻。



甚至还有打出一串摩斯电码让它翻译的——这里是小红书,不是《风声》啊。



单方面宣布:现在最强的多功能翻译软件是小红书。


大语言模型处理翻译任务虽然已经很好使了,但是落在小红书这样内容无比丰富的社交平台上,还是有很多挑战。


语言的多样性就是最具有挑战性的。一些文化中特定的术语、习惯表达或比喻,如成语、俚语,难以准确翻译。


还有一些人名、昵称,模型可能无法很好地区分哪些词需要翻译,哪些词需要保留。


比如这里把“orange man”直接译成了“橙人”,其实指的是特朗普。



在准确性之外,普通用户比较难感知到的是翻译所需要的计算资源。


在小红书这样内容非常丰富的平台上,用户可能只发几个字母,也可能发长至几百字的笔记。相比之下,长内容的翻译会占用更多资源,增加系统负载。


同时,各个国家的用户都进驻后,时区分布广泛,这导致系统几乎没有低负载时间。


等到两边都睡醒了,在短短的时区重合区间内,翻译请求量可能瞬间激增,系统需要在短时间内处理大量并发请求,这对并发处理能力是很大的考验。


预判未来,小红书这波在大气层


现在还没有准确的消息指出新的翻译功能背后,到底调用的是什么模型。但一些网友“逼问”之后发现,似乎是GPT。



还有网友“逼问”出来是智谱。



抛开幻觉不谈,考虑到成本问题,还真不好说用的是什么。GPT参数量大,计算成本高,不适合部署在资源受限的环境中。


比较可行的一种策略,是选择一个学生模型,并把GPT作为教师模型进行蒸馏。学生模型通常参数量更少,推理速度更快,但尽量保留教师模型的能力。


正好,这种路线对于小红书而言,或许更有把握。


小红书对大语言模型、多模态等AI技术的探索,早就开始了,只是一直侧重于算法优化。曾经也做过一些小小的AI功能,我们之前写过不少。


很少人知道的是,在2024年年初的AAAI上,小红书的搜索算法团队,就针对大模型蒸馏提出过一个新思路。



这是一个全新框架,在蒸馏大模型推理能力的过程中充分利用负样本知识。


“负样本”是一个很有趣的概念。传统蒸馏一般只关注正样本,这并不难理解:老师教学生,肯定是教正确的解题方式,让学生去理解和模仿。


不过,大家上学时肯定也有做过“错题集”,把自己犯过的错、掌握得不够牢的地方记录下来。这些错题就是“负样本”,在小红书的评论区,那些不够准确的翻译,就是负样本。


比如下面这个“fair point”,在翻译功能上线之前,这个译文就太机翻了。在这个评论区里,翻译成“有道理”更合适。



就像“错题”里也包含着重要的信息一样,“负样本”能够帮助学生模型识别哪些预测是不正确的,增强其辨别能力、提升对困难样本的处理,同时能够在复杂的语言表达中,保持一致性。


打个比方,现在你想要和外国友人们评论区对线——啊不,对账——可能会出现一些理财相关的词语。



比如银行bank这个词可能会经常出现,但它还有别的意思:“河床”,同时它还可以作为动词使用。


通过负样本学习,就是在训练模型识别多义表达,校正翻译逻辑的能力,生成更自然的内容。


负样本的优势还体现在对小语种的支持上。要知道,这次不只是美国用户,全球各个地方的用户都涌了上来:塞尔维亚、秘鲁,澳洲某些地区的原住民。



通过利用负样本(包括翻译错误的常见模式),学生模型能够识别并规避高频错误,提升低资源语言的翻译能力。


小红书团队提出的这个框架,是一种对蒸馏的创新应用,当时是为了从大语言模型中提炼复杂推理的能力并迁移到专业化小模型当中。至于具体可以完成什么任务当时并不清晰,起码看上去,翻译并不是重点。


那时或许没人知道这个框架,在一年之后,会为小红书成为国际交流的桥梁带来帮助。


还是那句老话:机会永远留给有准备的人。


本文来自微信公众号:爱范儿 (ID:ifanr),作者:爱范儿

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定