1 1 2 2 3 3 4 4 5 5 文集 深度 号外 热文 时间线
80后死亡率超5%?AI编的
2025-03-28 12:10

80后死亡率超5%?AI编的

本文来自微信公众号:新周刊 (ID:new-weekly),作者:阿瑞,编辑:DR,原文标题:《“80后死亡率超5%”,别上假数据的当》,题图来源:AI生成


生成式AI是有可能“胡说八道”的,它们会在看似真实的陈述中夹杂错误信息。


但偏偏,每个人都生活在信息茧房当中,接收信息的精力有限,不可能对互联网信息逐一甄别,如果一篇文章用充足的数据做出了“严谨的行文姿态”,就已天然具备了被信任的基础。


更不用说,人往往更倾向相信于那些符合期望的“事实”。在一个争议话题下加上刻意营造的噱头,这些编造的数据往往会当做打口水仗的武器,被二次加工、传播,造成信息污染,真真假假也就说不清了。


“截至2024年末,80后死亡率突破5.2%,相当于每20个80后中就有1人已经去世。”


这句话,你信了吗?


虽然当代打工人的健康状况确实值得担忧,但好消息是,这一数据是假的。


今年2月,相关数据和评论刷屏互联网,人们感慨“活着不易”,更有人借机卖起了保健品和保险。3月4日,公安部网安局公布调查结果:网民夏某在视频《80后到底还剩多少人》中捏造数据,被予以行政处罚。


造谣一张嘴,辟谣跑断腿。如今,造谣甚至不需要嘴了——只要在AI的对话框中输入几个字,指引AI生成虚假信息的人或许都意识不到自己在助力谣言的诞生。


AI编的数据,你信了吗?


先来说说“80后死亡率”的离谱错误。


死亡率作为人口学的重要统计指标,其计算公式为“某时期死亡人数除以同期平均人口数,再乘以1000‰”,也就是说,它的单位是‰,而非%。


中国人民大学人口与健康学院教授李婷在其公众号“严肃的人口学八卦”撰文表示,国家每年会公布预期寿命和人口粗死亡率,但不会根据“80后”“90后”这些年龄段公布死亡状况,因此,“80后死亡率”这类说法本身就缺少数据支撑。


如果有人真的想计算80后的“存活比例”,还存在两个问题:一是过往人口普查的数据不够准确,多种计算方法都有误差;二是这份数据也会被新生儿的死亡数据污染,也就是说,哪怕5.2%的数据准确,其中也可能包括了一半以上出生时就夭折的人,青壮年死亡率还得降低不少。因此,人们大可不必为80后今天的健康状况恐慌。


如果说80后的“存活比例”,还不过是“无伤大雅”的谈资,引发全网侧目的“顶流明星在澳门狂输10亿”,则算得上惊天大瓜,甚至让周杰伦无辜躺枪。


但就是这么一个被传得有鼻子有眼的瓜,经公安机关证实,同样也是AI编造。


与此同时,也有网友感慨:“每天上网就想看看作者的观点,结果现在满屏‘量子’‘坍缩’‘代码’‘基因’……”当机械感满满的AI文案充斥着互联网,对人的判断力又增加了几分考验。


比如最近,网上有一篇《“离婚冷静期”制度简史:历史终将记住这个黑色幽默》的文章被大量转发。


我们对文中的二手信息,保持一种本能的警惕,试图找到源头加以查证。而这篇看似严谨的文章尽管引用了大量数据,但当逐一搜索这些数据时,会发现数据来源几乎都是无中生有。


就基层法官是否会统计离婚案件的类别和比例一事,有法律界人士向《新周刊》记者表示不会统计如此详尽的案件情形:“基层没有这么闲,最多统计一下结案率和胜诉率。”况且,“北京某律所”作为服务机构,本就没有统计和公布“冷静期后复婚率”的能力和权限。


“中国社科院2024年《婚姻制度民意调查》”,则是一个不存在的调查。“202X年”“冷静期XX倒计时”这些词更是满满的编造感——如果是真的,为什么不写明真实日期?


至于所谓当初支持立法的学者反思“我们用农耕时代的温情滤镜,强行矫正互联网时代的婚姻形态”‌,看似语言优美,实则言之无物。现代婚姻法本身既不是农耕时代的产物,也不是互联网时代的产物。法律是一件严肃的事,倘若学者真的要反思,恐怕也不会使用如此模糊的表述。


这就是“AI幻觉”——说白了,生成式AI是有可能“胡说八道”的,它们会在看似真实的陈述中夹杂错误信息。


但偏偏,每个人都生活在信息茧房当中,接收信息的精力有限,不可能对互联网信息逐一甄别,如果一篇文章用充足的数据做出了“严谨的行文姿态”,就已天然具备了被信任的基础。


更不用说,人往往更倾向相信于那些符合期望的“事实”。在一个争议话题下加上刻意营造的噱头,这些编造的数据往往会当做打口水仗的武器,被二次加工、传播,造成信息污染,真真假假也就说不清了。


AI幻觉无法消除,该怎么办


日常工作中试图让AI帮自己省力的人,对它胡编乱造的能力大多心里有数。


近日,在Vectara HHEM人工智能幻觉测试中,2025年1月发布的DeepSeek-R1模型显示出高幻觉率。对于这个现象,中科闻歌董事长王磊告诉《新周刊》:“我猜测这可能与模型的精度有关。”


有专家认为,AI软件在增强创意和想象力的同时,不可避免地增加了产生幻觉的副作用。


王磊认为,问题的核心在于神经网络设计原理本身。“幻觉产生的原因在于模型选择词时,是基于词的概率分布进行预测。当问题的复杂程度提高时,这种预测方法可能会出现知识盲区,模型为了回答而回答,人云亦云。”


也就是说,当用户给出上半句,生成式AI会根据它学过的知识,“猜测”最有可能的答案。一旦问题涉及到它的知识盲区,设计原理又决定了它必须“接话茬”,就会给出自动“脑补”的答案


清华大学新闻与传播学院教授陈昌凤向《新周刊》表示:“生成式人工智能的主要功能,一是搜索,二是推理。前者通常要有基础数据,它才能搜到。而幻觉更可能出现在推理的环节。”


她指出,人类本身就会产生幻觉,而人工神经网络系统学习的是人类神经系统。“生成式人工智能从诞生起就免不了幻觉,我相信随着使用时间增加和技术提升,它的幻觉会越来越少,但不太可能完全消除。”


比如,就AI对话截图来看,“80后死亡率”的数据参考了一个并无权威性的网页文章。这类“三无”网站的页面,很多人本来是连看都不会看一眼的,AI的强大却很容易产生让人迷惑的“权威性”,以至于很多人甚至没发现它的数据来源也是“三无”网站


如果人们积极辟谣,持续优化AI所学习的数据库,肯定能降低AI幻觉的发生。但反过来试想一下,假如AI生成的谣言和假数据持续污染互联网,会发生什么?


2024年7月,一篇来自牛津、剑桥等大学的论文登上了Nature封面。学者们发现,如果在训练中不加区别地使用AI产生的内容,会导致大模型崩溃——多次迭代后AI反而会退化,产生越来越多的事实错误甚至乱码。


众所周知,当今市面上的AI工具都是由海量的数据训练而成的。但随着AI的胃口越来越大,可“食用”的新数据越来越少,大模型将纷纷面临“高质量数据荒”。人工智能研究组织Epoch预测,高质量的文本数据可能会在未来几年内耗尽。


换句话说,真实的数据价值连城。人类仍然需要持续创造真实的内容,更要学会辨别AI生成内容的真假。


王磊表示:“大模型它绝不能够给你提供决策。人类世界的复杂性在于许多情况都是动态变化的。大模型的知识面很广,但(这些知识)毕竟是固化的,它并不能察觉世界的变化,也不能认知到很多问题的复杂性。它输出的结果,仅仅是基于其数据库的经验性建议。”


他建议:“使用AI时的偏见和幻觉问题,需要我们的自我审视和判断。即使AI能够搜索互联网信息,我们同样需要鉴别其提供的信息是否真实。我们不能完全依赖和盲信AI,而应将其视为一种工具,辅助我们的工作和决策。AI目前只是我们的工具,而非结论和教条的源泉。”


对普通人而言,该如何辨别AI幻觉、防止被AI欺骗?我们的心得是,要始终对AI生成的事实性描述保持警惕。可以使用搜索引擎核查出处,一般而言,若出处为权威机构,信息就更可靠。也可以使用多个AI联网搜索,交叉印证和检查某个AI生成的内容。


现在AI生成内容时,也有概率出现提示。


刘慈欣的短篇小说《诗云》中,外星文明为了写出超越李白的诗,穷尽太阳系的能量列举出了所有字词组合,却无法从庞大的“诗云”中检索出真正的诗歌。作者借这篇小说表明,AI生成内容的本质是词汇的排列组合,但欣赏和评价的权力属于人类。


或许,我们可以进一步说:AI可以生产万千种内容,但判断其真实性和价值的任务仍然掌握在人类手中。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定