肯尼亚“喂养”GPT-4-虎嗅网

本文来自：时代周报APP，作者：刘沐轩，编辑：梁励，头图来自：视觉中国

积灰的吊扇慵懒地转着，十几个肯尼亚人盯着笨重的台式电脑屏幕，不断露出惊讶的神情。

考虑到这里是肯尼亚内罗毕的基贝拉贫民窟，一个过半居民没有工作，连自来水和干净的厕所都难得一见的地方，可能有人会误以为，他们一定是“村里刚通上网”，才会露出这种没见过世面的反应吧？

与想象的不同，实际上，他们在为全球最先进、最热门的AI产品ChatGPT工作。这些人被称作数据标注师，正是他们保障了ChatGPT“健康成长”，使其成为一个彬彬有礼、夸夸其谈的聊天AI。

近半个月以来，随着ChatGPT最新版本GPT-4的发布，全球科技公司纷纷跟进，例如英伟达宣布在芯片硬件和云服务领域上全面支持AI的开发，百度发布文心一言，而AI也再次成为全球焦点。

但在光鲜亮丽的社会变革和投资热潮背后，却是一群时薪不到两美元的肯尼亚人来教会AI，何为善恶。

而且这份工作，并不光鲜。

一、“精神污染”

互联网上的言论总是充满着“戾气”，几条恶毒的言论就可以影响一个人的心情。如果有这样一份工作，要求员工每天高强度阅读9个小时的恶意内容，时薪多少能让人接受？

为OpenAI阅读和标记这些内容的肯尼亚人，实得工资约为每小时1.32美元至2美元（约合9~13.7元人民币）。

这些肯尼亚数据标注师的工作内容类似于鉴黄师，但更重口。

为了教会ChatGPT什么内容不该学，数据标注公司Sama从暗网上找来了各种由人性最黑暗面产生的文本和图片，包括但不限于无码的血腥酷刑、反人类的犯罪现场、儿童性虐待和仇恨言论。

一位负责为OpenAI阅读和标记恶意文本的肯尼亚数据标注师表示，他在阅读了一则跨物种猎奇性行为的图片后，反复出现幻觉。“那是一种折磨，即便是在一周后，我还是偶尔会想起那张图片，止不住地犯恶心。”

用中文互联网的流行语来形容，就是“我的脑子不干净了”，或“辣眼睛”。

一张图片的影响已如此之大，但除了图片之外，肯尼亚的数据标注师们每天还需要阅读150至250段文本，长度从大约100个单词到1000多个单词不等。

这些让人心理和生理上不适的内容，不断撕裂着数据标注师的三观，每个人都积攒了大量的精神压力。最终，没人能坚持超过3个月。

因此，雇佣他们的Sama公司在2022年2月终止了为OpenAI提供服务的合同，比计划提前了八个月。

Sama是一家总部位于美国旧金山的公司，长期在肯尼亚、乌干达和印度雇用员工，为谷歌、Meta和微软等硅谷公司提供类似的数据标注业务。Sama将自己定位为一家“有道德的AI公司”，声称已帮助50000多人摆脱贫困。

自称是改善社会生产方式的变革，但AI的源头却从这样令人痛苦的工作开始。剥削贫困国家的廉价劳动力去做最基础的工作，是否会成为AI诞生的“原罪”？

二、离不开人的AI

即便是最先进的AI，也仍然离不开人，哪怕这个人来自相对贫困落后的国家。因此，肯尼亚数据标注师们的工作对OpenAI而言至关重要。

事实上，ChatGPT的前身GPT-3，就已经具备了令人印象深刻的语言表达能力和逻辑认知能力。但由于缺乏对于互联网信息的筛选机制，GPT-3也会被充满恶意的信息诱导，输出一些仇恨、暴力、歧视的内容。

在全面推广后，一旦发生类似“AI支持纳粹”这样的公关危机，整个行业都有可能被偏见推上风口浪尖，导致技术进步停滞。

如今，大多数的互联网平台都有着运用AI技术的信息审核机制，从最基础的关键词初筛，到高级的识图和从语言逻辑中判断恶意内容，都离不开AI技术的身影。

想要构建这样能够自我学习和进化的信息审核机制，OpenAI借鉴了Facebook等社交媒体的做法。那便是先收集那些带有血腥、暴力、仇恨言论和性虐待标签的素材，由远在肯尼亚的数据标注师进行人工评级打分，再教给ChatGPT。

经历多轮人工校对后，ChatGPT将建立自己的“善恶观”，在产生恶意言论之前，就将其过滤掉。

现在呈现在世界面前的，这个礼貌、成熟，甚至表现出一定共情能力的GPT-4，可以说是AI见惯了人间百态之后的样子。

OpenAI“诞下”了GPT-4，但雇了一批肯尼亚“保姆”，干着最脏最累的活来“养育”GPT-4。

“ChatGPT和其他语言模型AI令人印象深刻，但他们并不神奇。”人工智能伦理学家安德鲁·斯特雷特表示，因为这些AI仍然依赖于大量人力和数据，其中大部分是未经授权和未经同意使用的，连这个领域最明星的企业OpenAI也没能解决这些严重的基础性问题。

三、为什么是肯尼亚？

对于外界而言，崎岖的山脉、茂密的森林和野生动物丰富的大草原，构成了他们眼中的肯尼亚。

然而在这片不到60万平方公里的国土上，生活着5300万肯尼亚人，其中不少人选择了从事与计算机相关的数字工作。

据2021年肯尼亚媒体《肯尼亚华尔街》的一份报告，肯尼亚成年人口中有超过120万数字工作者。相比于2019年的63.8万人，这一数据有了显著增长。

肯尼亚的数字工作者数量逐年增长。（图源：肯尼亚华尔街）

他们从事线上营销、线上助理、学术写作、软件开发和数据科学等工作。

根据市场分析机构埃森哲的预测，到2025年，数字经济预计将占肯尼亚GDP的9.24%。但这一数字仍远低于世界银行统计的全球平均水平15%。

尽管肯尼亚的互联网普及率不高，贫富差距极大，但还是有一部分人率先享受到了线上工作的便利。

政府对数字经济的推动，极低的工资标准，以及劳动法执行的纰漏，促使肯尼亚成为发达国家的数字外包“工厂”。

就拿数据标注师的工资而言，雇佣美国人的平均月薪约为4374美元（约合3万元人民币），雇佣印度人的平均月薪要1.67万卢比（约合1400元人民币），而雇佣肯尼亚人仅需每月2万肯尼亚先令（折合约1044元人民币）。

美国《时代周刊》曾采访多名承担ChatGPT外包数据标注师的肯尼亚Sama员工，他们都表示并没有收到公司承诺的“全身心保障”福利，比如心理咨询、冥想、护理和游戏等。

但对于工资，他们并未表达出明确的不满，Sama承诺的每月21000~40000肯尼亚先令的工资水平，已经远远高于当地最低月薪标准15000先令。为了生计，他们也都不愿透露姓名。

遭受“精神污染”的数据标记师终究还是少数，大多数肯尼亚数据标记师处理着相对正常的内容。对于讨生活的肯尼亚人而言，与其考虑自己是否“被剥削”，还不如接受这份高薪的外包工作。

这也促使科技巨头们打着“帮助当地发展人工智能”的口号，变本加厉地在这些国家攫取廉价劳动力资源。

或许在他们看来，一个工业结构不完整，政局不稳定的贫困非洲国家，仅凭一群学历都不高的员工帮助国际科技巨头们做点外包工作，怎么可能实现所谓“人工智能领域的弯道超车”呢？

本文来自：时代周报APP，作者：刘沐轩，编辑：梁励