ChatGPT高级语音模式首批体验来了,但还是个阉割版
2024-09-26 17:14

ChatGPT高级语音模式首批体验来了,但还是个阉割版

本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO,题图来自:AI生成

文章摘要
ChatGPT高级语音模式初上线,功能丰富但仍有限制。

• 🎭 AI演绎情绪自然,适合角色扮演

• 👩‍🏫 支持多语言对话,堪当外语老师

• 🎤 限制内容多,暂不支持长时间对话

千呼万唤始出来,ChatGPT的高级语音模式终于上线,本周内向所有Plus和Team用户全量推送。


然而,“本周内”也是犹抱琵琶半遮面的泛指,仍然是一部分人先用起来。


如果你也还没被推送到,不妨在等待之余,看看幸运网友们是怎么整活和刁难AI的。


喘气、哭泣、表演口技,你看ChatGPT有几分像人


角色扮演,往往是考验语音AI的第一课。


让ChatGPT用声音表演不同情绪,兴奋的、平静的、戏精的,它都信手捏来,情绪饱满且自然,不知道哪里进修的表演班。


情绪激动时甚至有点过头,对话者连说好几个OK,才把它的表演欲给摁住。



视频来自:X@WorldEverett


除了说话的语气,我们的笑、哭、喘气等状态,也体现了文字不能道尽的心情。如果AI能够完美地复刻,那就更加拟人了。


这难不倒ChatGPT,它边伤心啜泣,边赞美自己的语音模式有多厉害,冲击力堪比短视频的AI紫薇,好像随时都能过呼吸。



视频来自:X@DavidTaylor_MD


当ChatGPT代入一位夺得金牌的运动员,模仿同样惟妙惟肖,说话大喘气,表现出既兴奋又疲惫的精神状态。



视频来自:X@wongmjane


让ChatGPT尝试Vtuber(虚拟主播)赛道,也不是不可以,不过这个声音有点尖细,不够自然,建议听洛天依和初音未来洗洗耳朵。



视频来自:X@wongmjane


京中有擅口技者,仅一桌、一椅、一扇、一抚尺,ChatGPT模仿各种声音的能力不比人类艺术家,倒也马马虎虎。



视频来自:YouTube@MattVidPro AI


你要求边讲故事边配音效,AI就能现演开门的吱嘎声、虫子的叽喳声,尽管功力还不够纯熟。


把思路打开,高级语音模式很适合给孩子们讲睡前故事,故事内容、旁白、音效一手包办,一个AI就是一个团队。


自娱自乐之余,实用主义者们已经开始拿ChatGPT干活,做些有价值的事情了。


ChatGPT会说50多种语言,懂各种腔调的英语,很多小语种,甚至方言。


所以也就很容易想到,让AI当外语老师,切换语言和我们对话。据说英语母语人士最难学的语言之一马耳他语,也不在话下。



视频来自:X@anthonyspiteri


巧的是,语言学习软件多邻国,也在周二的年度大会Duocon推出了AI视频通话,用户可以和多邻国角色“拽姐”练习口语。不过,目前只适用于英语、西班牙语和法语。



看来,教培行业假设了,有了AI之后,我们不是不用学外语,而是更随时随地学各种各样的外语。


AI不仅可以当外语老师,X网友@Lyle_AI通过ChatGPT高级语音模式,改进自己的销售话术,整个操作流程非常值得借鉴。



他让AI扮演一名销售专家,然后向AI推销,让AI反馈自己的话术说服力强不强、够不够清晰,以及有没有价值。AI反馈之后,他还会追问,并让AI给出示范。


练习、反馈、提问、模仿,推而广之,这套流程可以用到面试、演讲等场景,让AI帮社恐的人类更擅长口语表达。


AI能说,但能不能听?一位网友另辟蹊径,让ChatGPT给吉他调音。



视频来自:x@skirano


他边弹边问行不行,随时打断AI,ChatGPT表现得很内行,但不知道它的耳朵有没有调音器准。


总之,决定AI发挥的上限大概有两方面。


一个是模型的能力,低延迟和随时打断让对话有来有往,不考验用户的耐心。


另一个是网友的想象力,让语音场景有无限的可能性。


姗姗来迟的高级语音,还不能做你的日常搭子


满打满算,从发布Demo到正式推送,已经过去了4个月,OpenAI高级语音模式仍然未能完美,和发布会时相比也打了个折扣。


时长限制是最让话痨的人类遗憾的,暂时别想和AI深夜煲电话粥了,CNBC和X网友@MattVidPro的体验都发现,只能和ChatGPT聊45分钟左右。


OpenAI的官方回答是,每天的限制时间可能都不一样,当天还剩15分钟时,会进行提醒。


视频和屏幕共享功能也没能实现,AI没有“眼睛”,意味着不能像Demo那样,让它实时解题、给代码纠错,或者夸夸我们的宠物。



另外就是一些细节上面的问题了,OpenAI的官方例子里,在模拟因为迟到给奶奶道歉的场景时,ChatGPT的普通话语气很真诚,但仍然有些译制腔,不如国产AI。


并且,它给出的话术也比较僵硬,谁会对自己的奶奶说,“我可以怎么补偿您呢”。


以上种种说明AI还没能修成人形,同时,OpenAI也给它增加了一些额外的禁制。


YouTuber博主@MattVidPro AI在直播体验时,意外踩到了OpenAI的雷。


他让ChatGPT模仿醉鬼,它刚说了个开头,停顿了一下之后如梦初醒,切换回了正常语气,说规则不允许它这样做,把他吓了一大跳。



视频来自:YouTube@MattVidPro AI


类似地,让ChatGPT模仿口吃,它也会表示拒绝,因为这样可能会冒犯他人。为了尊重音乐创作者的版权,ChatGPT也不能唱歌。


以规则的形式赋予AI“三观”,某种程度上让它更像一个“社会人”了。但也有用户觉得,过犹不及。


这是不是像阿西莫夫的机器人三定律一样,让AI更好地融入社会,服务于更多人呢?


所看到的高级语音模式体验中,我更偏爱的,恰恰是那些融入生活的日常场景。



X用户@spencergardner,让自己两岁半的孩子和ChatGPT一起数数、玩文字游戏。他还能介入其中,主持他们的谈话,改变话题,或者提不同的问题。


期间有很多次的打断、犹豫、语气的变化,但也因此很随意和轻松。


ChatGPT的高级语音模式现在还支持设定自定义指令,让模型知道用户的名字和一些基本信息,感觉就是为了陪伴场景准备的。


高级语音可以结合虚拟角色使用,更有陪伴感了。图片来自:X@op7418


之前ChatGPT的Dan模式火过一阵子,用户用提示词的方式让ChatGPT越狱,谈谈情说说爱擦擦边,他们还会用自定义指令,放上自己的名字、爱好等,调教AI记住自己。


就像播客是一种陪伴媒介,语音总能在情感赛道上一骑绝尘,所以高级语音模式对人心的慰藉,绝对是个卖点,等待进一步的落地。


以“阉割版”发布的ChatGPT高级语音模式,让我们看到了把AI作为学习、生活、工作搭子的未来。不和它说话,它就保持沉默,和它聊天,它不会让你觉得热脸贴冷屁股。



未来很近,但还没有抵达。


神隐很久的OpenAI总裁Greg Brockman,这次也罕见地发声:


通过ChatGPT实现流畅的语音对话,可以让我们意识到,在计算机中输入内容是多么不自然。


没错,只在聊天框打字是挺无聊的,但让丝滑的语音对话真正走入日常,先从OpenAI把高级语音模式推送到更多人,支持多模态和全天候聊天开始吧。


本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定