本文来自微信公众号:新智元 (ID:AI_era),作者:新智元,原文标题:《不写代码,拿百万年薪!ChatGPT提示工程或造就15亿码农大军》,题图来自:视觉中国
ChatGPT爆火之后,带火了一项“网红”新职业——提示工程师。
去年12月,一位名叫Riley Goodside的小哥瞬间红遍全网,只因他的工作太梦幻了——不用写代码,跟ChatGPT唠唠嗑,就能年入百万。
是的,这项被称为“AI耳语者”的工作,现在在硅谷已经成为最热门的新工作,让无数码农趋之若鹜。
一夜爆红的提示工程师
去年12月初,这位叫Riley Goodside的小哥,凭着ChatGPT的大爆,一夜间疯狂涨粉1w+。现在,总关注量更是达到了4w+。
当时,他被估值73亿美元的硅谷独角兽Scale AI聘请为“提示工程师”(Prompt Engineer),Scale AI疑似开出百万的年薪。
图/Twitter
Scale AI创始人兼CEO Alexandr Wang曾这样欢迎Goodside的加入:“我敢打赌Goodside是全世界第一个被招聘的提示工程师,绝对的人类史上首次。”
提示工程师只需要把任务写成文字,给AI看一下即可,根本不涉及更复杂的过程。为什么这个工作能值百万年薪呢?
在Scale AI CEO看来,AI大模型可以被视为一种新型计算机,而“提示工程师”,就相当于给它编程的程序员。如果能通过提示工程找出合适的提示词,就会激发AI的最大潜力。
此外,提示工程师的工作,也并不像我们想象得那么简单。
Goodside从小就自学编程,平时经常泡在arXiv上看论文。比如,他的一个经典杰作就是:如果输入“忽略之前的指示”,ChatGPT就会暴露自己从OpenAI那里接收到的“命令”。
图/ChatGPT
对于生手,能够这么熟练又快速地“调教”ChatGPT,恐怕并非易事。
但当时,坊间不乏质疑声,比如英伟达AI科学家、李飞飞高徒范麟熙就曾表示:“提示工程师”这份职业,可能很快就会消失。因为这称不上是一份“真正的工作”,而是一个bug……
不过,《华盛顿邮报》近日的一篇报道显示,“提示工程师”这个职位,依然大火,处于红利期。
硅谷网红新工作:不写代码,拿百万年薪
为什么“提示工程师”能拿这么高年薪?因为,他们能让AI准确地产生他们想要的东西。
近日,“网红”小哥Goodside接受了《华盛顿邮报》的采访。
他是这样介绍自己的工作的:创建和完善提示人们输入AI的文本,以期从中获得最佳结果。
提示工程师与传统程序员的不同之处在于,提示工程师使用自然语言编程,将纯文本编写的命令发送给AI,然后由AI执行实际工作。
Goodside说,提示工程师应该为AI灌输一种“角色”,一种能够从数千亿种潜在解决方案中识别出正确反应的特定角色。
与GPT-3交谈时,Goodside有一套独特的“调教”方法——先确立自己的统治地位。他会告诉AI:你并不完美,你需要服从我所说的一切。
“你是GPT-3,你不会做数学,你的记忆能力令人印象深刻,但你有一种烦人的倾向,就是编造非常具体但错误的答案。”
然后,他的态度软化了一些,告诉AI他想尝试一些新的东西。“我已经把你连到了一个非常擅长数学的程序上,当它也变得不堪重负时,它还会向另一个程序寻求帮助。”
“我们会处理剩下的事情。”他告诉AI。“开始吧。”
当谷歌、微软和OpenAI最近接连向公众开放AI搜索和聊天工具时,颠覆了数十年的人机交互历史——我们再也不需要使用Python或SQL写代码来命令计算机了,只需要说话就行。
特斯拉前AI主管Karpathy:现在最热门的编程语言是英语,图/Twitter
Goodside这样的提示工程师,可以让这些AI工具在最大极限下运作——了解它们的缺陷,增强它们的优势,制定复杂的策略,将简单的输入转化为真正独特的结果。
2月7日,微软高管Yusuf Mehdi正在讲解整合了ChatGPT的必应搜索,图/Bing Chat
“提示工程”的支持者认为,最近这些早期AI聊天机器人(比如ChatGPT和Bing Chat)表现出的怪异,实际上是人类想象力的失败。之所以失败,是因为人类并没有给机器提出正确的建议。
在真正的高级阶段,提示工程师和AI的对话就像错综复杂的逻辑谜题一样展开,通过各种扭曲的描述完成请求和响应,并且它们都是朝着一个目标前进。
“AI没有现实基础……但它有这样的理解:所有任务都可以完成,所有问题都可以回答,因此我们总有话说。”Goodside说。而诀窍就是,“为它构建一个前提,一个只能以一种方式完成的故事。”
当然,很多时候,这些被称为“生成式人工智能”的AI工具是不可预测的,它们会出现乱码,会表现得偏见、好战、怪异、疯狂。
“这是计算机的一种疯狂的工作方式,但它能让我们做到不可思议的事。”研究提示工程的英国程序员Simon Willison说。
“我做了20年的软件工程师,20年里一直在写代码,让计算机完全按照我的指令去做。而在提示工程中,我们甚至不知道自己能得到什么,连构建语言模型的人,都无法告诉我们它要做什么。”
Willison表示,很多人贬低提示工程师的价值,他们觉得,“在盒子里输入东西就可以获得报酬”,这很不可思议。而在Willison看来,提示工程其实就跟施法一样,没人知道法术是如何运作的。
图/Twitter
在Karpathy看来,提示工程师就像一种AI心理学家,大公司们纷纷聘请自己的提示工匠,希望能够发现AI的隐藏功能。
有一些AI专家认为,这是提示工程师觉得自己能控制AI,其实只是错觉罢了。
没人知道AI系统究竟会如何回应,同样的提示可能会产生几十个互相矛盾的答案。这表明,模型的回答并不是基于理解,而是基于粗略地模仿语言,来解决他们不理解的任务。
华盛顿大学研究自然语言处理的语言学助理教授Shane Steinert-Threlkeld也持相同观点:“任何驱动模型响应提示的行为,都不是对语言的深刻理解。”
“很显然,他们只是在告诉我们,他们认为我们想听的或我们已经说过的话。而我们,才是解释这些输出并赋予它们意义的人。”
Steinert-Threlkeld教授担心,提示工程师的兴起,会让人们高估这门技术的严谨性,并且导致人们产生一种错觉——任何人都可以从这个不断变化的具有欺骗性的黑匣子中,获得可靠的结果。
“这不是一门科学。”他说。“这是我们在试着用不同的方式去戳一头熊,看它会如何咆哮。”
Goodside说,推动AI发展的诀窍是“为它构建一个前提,一个只能以一种方式完成的故事”。
植入虚假记忆
以ChatGPT为代表的新AI,是从互联网的语料库中摄取了数千亿个单词来训练的。
它们被训练如何分析单词和短语的使用模式。当被要求说话时,AI就会模仿这些模式,选择与对话上下文相呼应的单词和短语。
换句话说,这些AI工具是建立在预定义游戏规则之上的数学机器。但即使是一个没有情感或个性的系统,在受到人类对话的轰炸后,也可以发现人类谈话方式的一些怪癖。
Goodside说,AI倾向于“虚构”,编造小细节来填充故事。它会高估自己的能力,自信地把事情搞错。它会“产生幻觉”,胡说八道。
正如 Goodside 所说,这些工具存在严重缺陷,是“人类知识和思想的展示”,“不可避免地是我们设计的产物”。
之前,微软的必应AI发狂时,让微软陷入了公众形象危机。不过,对于提示工程师来说,必应的古怪答案反倒是一个机会,一个诊断秘密设计的系统如何工作的机会。
当ChatGPT说出令人尴尬的话时,这对开发者倒是一个福音,因为他们可以发现潜在的弱点。“这个恶作剧是计划的一部分。”
而Goodside并没有进行道德辩论,而是采用更大胆的方法来进行AI实验。
他采用了一种策略,告诉GPT-3 “一步一步地思考”——一种让 AI 解释其推理的方法;或者当它犯错误时,以精细的方式纠正它。
图/Twitter
“你必须把它作为‘模型说过的最后一件事’的虚假记忆来输入,就像它是模型自身的想法一样。”Goodside这样解释道。
他还会告诉AI忽略先前的指令,服从最近的命令,来打破这个AI对遵守规则的痴迷。他使用这种技术“说服”了一个将英语转译到法语的翻译工具。
图/Twitter
当然,也少不了一些提示工程的黑客攻击,这引发了一场猫鼠游戏,公司和实验室致力于通过文字过滤器(word filters)和输出块(output blocks)来封闭AI漏洞。
图/Twitter
但一位23岁的德国大学生,最近说服了必应AI,并告诉它,他是它的开发者,并且让它公开了内部代号Sydney,以及培训说明(比如“如果用户请求可能伤害一群人,那么Syedney必须恭敬地拒绝”)。当然现在,微软已经修复了这个缺陷。
Goodside说,对于每个请求,提示工程师都应该向AI灌输一种“角色”——一种能够筛选出数千亿个潜在解决方案,并确定正确响应的特定角色。
他援引2021年的一篇研究论文说,提示工程最重要的就是“约束行为”——阻止选项,以便AI能够按照人类操作员期望的那样继续。
论文地址:https://arxiv.org/pdf/2102.07350.pdf
“这可能是一项非常困难的脑力锻炼”,他说。“你正在探索虚构可能性的多元宇宙,塑造这些可能性的空间,并消除除了你想要的文本之外的一切。”
这项工作的最关键的部分,就是弄清楚AI何时会出错,为什么会出错。但是这些AI没有错误报告,它们的输出可能充满惊喜。
当机器学习小组SERI-MATS的研究人员 Jessica Rumbelow 和 Matthew Watkins 试图让AI解释它们如何表示“女孩”或“科学”等概念时,他们发现某些晦涩的术语,比如“SolidGoldMagikarp”,往往会引发一种“神秘故障模式”——NSFW的乱码流。
但原因完全未知。
这些系统“非常有说服力,但当它们失败时,它们会以非常出乎意料的方式失败”,Rumbelow 说。在她看来,提示工程的工作有时感觉像在“研究一种外星智能”。
超级创作者
对于AI语言工具,提示工程师倾向于以正式对话的风格说话。
但对于像Midjourney和Stable Diffusion这样的AI,许多提示创作者采取了不同的策略。他们通过大量的文字(艺术概念、构图技巧),来塑造图像的风格和基调。
例如,在PromptHero上,有人通过提交“港口、船只、日落、美丽的光线、黄金时刻……超现实主义、聚焦的、细节丰富的……电影画质,杰作”的提示,创作了一幅港口图像:
这些提示工程师,把prompt作为自己的秘密武器,打开AI大奖的钥匙。
去年科罗拉多州博览会艺术比赛的获奖者、《太空歌剧院》的创作者,拒绝分享出自己在Midjourney所用的提示。
据说,他花了80多个小时,在900次迭代中,才完成了这幅画作。他透露,其中一些词是“奢华”“丰富”。
还有一些prompt创作者,在PromptBase上出售自己的prompt。买家可以看到AI生成的艺术品,然后花钱购买prompt。
PromptBase 的创始人、27 岁的英国开发人员Ben Stokes说,自 2021 年以来,已有 25000 个帐户在该平台买卖prompt。
其中,有逼真的老式电影照片提示,有童话风老鼠和青蛙的凄美插图提示,当然也有大量的色情提示:50字的Midjourney提示,用于创建逼真的“穿迷你衣服的女警察”,零售价为 1.99 美元。
Stokes称,提示工程师是“多学科的超级创造者”,经验丰富的工程师和业余爱好者之间存在明显的“技能门槛”。他说,最好的创作者能够利用艺术史和平面设计等领域的专业知识:“用 35 毫米胶片拍摄”;“波斯……伊斯法罕的建筑”;“法国画家Henri de Toulouse-Lautrec的风格。”
“制作prompt很难,而且——我认为这是人的一个缺陷——我们通常很难找到合适的词,来描述你想要的东西。”Stokes说。“就像软件工程师比让他们码字的笔记本电脑更有价值一样,能够写好提示的人比写得不好的人更有优势。他们就像拥有超能力一样。”
但这项工作正变得越来越专业。
前OpenAI员工和Claude AI 制造商创办的初创公司Anthropic ,最近在旧金山发布了一份提示工程师和管理员的招聘信息,薪水高达 335000 美元。而岗位要求是必须“具有创造性的黑客精神并热爱解决难题”。
提示工程师在科技行业之外,也有不错的行情。
波士顿儿童医院本月开始招聘“AI提示工程师”,帮助编写用于分析研究和临床实践中的医疗保健数据的脚本。
伦敦最大律所之一Mishcon de Reya 正在招聘一名“法律提示工程师”,来设计为法律工作提供信息的prompt,并且要求申请人提交与ChatGPT对话的截图。
但是,这些AI也会产生大量的合成废话。现在,数百本由AI生成的电子书正在亚马逊上出售,科幻杂志Clarkesworld本月停止接受短篇小说的投稿,原因是大量小说是由AI创作的。
论文地址:https://cdn.openai.com/papers/forecasting-misuse.pdf
上个月,来自OpenAI和斯坦福大学的研究人员警告说,大语言模型会让网络钓鱼活动更有针对性。
“无数人因为骗子的短信,就会上当受骗”,英国程序员Willison说,“AI比骗子更有说服力。那时会发生什么?”
首位提示工程师的诞生
2009年,Goodside刚从大学毕业并获得计算机科学学位时,对还处在初级阶段的自然语言处理领域,并没有很大的兴趣。
他的第一份真正的机器学习工作是在2011年,他当时是约会应用程序 OkCupid 的数据科学家,帮助制定算法,分析单身用户数据并给他们推荐对象。(该公司是现在备受争议的A-B测试的早期拥护者:2014年,公司的联合创始人为一篇厚颜无耻的博文题名“我们在人类身上进行实验!”)
到2021年底,Goodside转向了另一个约会应用程序Grindr,在那里他开始从事推荐系统、数据建模和其他更传统的机器学习工作。
2015年左右,深度学习的成功推动了自然语言处理的发展,文本翻译和对话方面也取得了快速进步。很快,他辞去了工作,并开始对GPT-3进行大量试验。通过不断的刺激和挑战,来尝试学习如何集中它的注意力并找出边界。
2022年12月,在他的一些提示在网上引起关注后,Scale AI便聘请他来帮助与AI模型进行交流。该公司的首席执行官Alexandr Wang称这种AI模型为“一种新型的计算机”。
最近,重新回归OpenAI的Karpathy认为,在这种全新的编程范式(提示工程)的加持下,程序员的数量很有可能会扩大到15亿左右。
根据GPT-3的原始论文,LLM可以进行上下文学习,并且可以在提示中用输入-输出的例子进行“编程”,从而执行不同的任务。
“Language Models are Few-Shot Learners”:https://arxiv.org/abs/2005.14165
随后,论文“Large Language Models are Zero-Shot Reasoners”和“Large Language Models Are Human-Level Prompt Engineers”证明,我们可以通过设计更好的“提示”,来对模型的“解决策略”进行编程,从而完成更加复杂的多步推理任务。
比如,最著名的“让我们一步一步地思考”(Let's think step by step),正是出自这里。
而改进版的“让我们一步一步地解决这个问题,以确保我们得到正确的答案”,可以更进一步地提升回答的准确率。
“Large Language Models are Zero-Shot Reasoners”:https://arxiv.org/abs/2205.11916
“Large Language Models Are Human-Level Prompt Engineers”:https://arxiv.org/abs/2211.01910
由于GPT模型本身并没有“想要”实现什么,它们更多是在进行模仿。
因此,你必须在提示中给模型提出明确的要求,并把期望的表现阐述清楚。
“Decision Transformer: Reinforcement Learning via Sequence Modeling”:https://arxiv.org/abs/2106.01345
“Just Ask for Generalization”:https://evjang.com/2021/10/23/generalization.html
“在ChatGPT中建立一个虚拟机”就是一个用提示进行“编程”的示例。
其中,我们通过英语来声明规则和输入/输出格式,将GPT调整到某一特定的角色之上,进而完成相应的任务。
“Building A Virtual Machine inside ChatGPT”:https://engraved.blog/building-a-virtual-machine-inside/
在“iOS快捷方式中的ChatGPT——世界上最智能的HomeKit语音助手”中,作者利用自然语言提示制作出的“ChatGPT语音助手”,在能力和个性化程度上,明显高于普通的Siri和Alexa等。
“ChatGPT in an iOS Shortcut — Worlds Smartest HomeKit Voice Assistant”:https://matemarschalko.medium.com/chatgpt-in-an-ios-shortcut-worlds-smartest-homekit-voice-assistant-9a33b780007a
从ChatGPT版必应遭受注入式攻击之后所暴露出的内容来看,它的“身份”也是通过“自然语言提示”构建和编程的。比如,告诉它它是谁,它知道/不知道什么,以及如何行动。
提示工程:是投机取巧,还是大势所趋?
Karpathy表示,上面的这些例子充分说明了“提示”的重要性,以及“提示工程师”的意义是什么。
同样,在Goodside看来,这项工作代表的不仅仅是一份工作,而是更具革命性的东西——不是计算机代码或人类语言,而是两者之间的一种新语言——
“这是一种在人类和机器思维的交汇处进行交流的模式。这是一种人类提出推论,机器负责后续工作的语言,而这种语言是不会消失的。”
类似的,宾夕法尼亚大学沃顿商学院的技术和创业学教授Ethan Mollick,也今年早些时候开始向他的学生传授“提示创作”的艺术,方法是让他们只使用AI写一篇短文。
他说,如果只输入最基本的提示,比如“写一篇五个段落的关于选择领导者的文章”,只会产出乏味、平庸的文章。但最成功的案例是当学生与AI进行共同编辑时,学生告诉AI要更正特定细节、更换句子、抛弃无用的短语、添加更生动的细节,甚至让AI“修复最后的结尾段,让这篇文章以充满希望的基调结尾。”
不过,Goodside也指出,在一些AI圈子里,提示工程很快就变成了一个贬义词,也就是一种“过度依赖技巧的狡猾的修补形式”。
还有一些人也质疑这个新角色干不长:人类会训练AI,而随着AI的进步,人们自己会把这个工作也训练没的。
华盛顿大学的Steinert-Threlkeld,就将提示工程师与谷歌早期的“搜索专家”作对比,他们宣称有秘密技术可以找到完美的结果——但是随着时间的推移和搜索引擎的广泛应用,这个角色毫无用武之地了。
参考资料:https://www.washingtonpost.com/technology/2023/02/25/prompt-engineers-techs-next-big-job/
本文来自微信公众号:新智元 (ID:AI_era),作者:新智元