用了ChatGPT最新语音功能之后,真的越来越像《Her》了
2024-09-27 21:19

用了ChatGPT最新语音功能之后,真的越来越像《Her》了

本文来自微信公众号:硅星GenAI (ID:gh_e06235300f0d),作者:椒盐玉兔,题图来自:AI生成

文章摘要
ChatGPT语音功能逼近《Her》,情感、方言、实用性显著提升。

• 🎭 情感细腻:AI语音情绪表现力大幅提升。

• 🗣️ 方言支持:支持50多种语言,甚至中文方言。

• 👁‍🗨 实用功能:可为盲人描述画面,提供情感支持。

在GPT-4o的发布会上,最令人震惊的就是它的语音交互能力,像人一样对话的节奏感、超逼真的语气,在期货了4个月之后终于来了。这项功能会在一周内全量推出,多亏社群里近日点科技的阿茶老师提供账号,让我们能第一时间上手玩到。



使用后第一感受就是:


  • 未来感:感觉就是《Her》电影里的场景被直接搬到了我面前!


  • 人味儿:这语音可真够“贴心”,完全不再像机械一样冷冰冰地回答了。


  • 速度:不用再盯着转圈圈看天花板了,几句话就能拉起一场对话。


  • 仍然是个不完全体,跟当时发布会演示的功能还有差距。


一、演技一流:情绪说来就来


人生如戏,全靠演技。连AI都能有这么逼真的情绪了,演员们看看!


在高级语音模式下,ChatGPT的情感表现力有了大幅提升。以前,AI和你对话的情绪可能只是表面上的,现在则能根据你的语速、语气和词汇作出相应的调整。这意味着,不仅仅是语音听起来更自然,AI的反应也更加贴合对话的情感氛围。



绕口令:烫嘴2倍速


话说昨天,你就回本了吗?


事情是这样的,长期跌跌不涨的A股,9月25日直接冲到3000点,涨停了!直接给上交所宕机了!



网友称:事情来得太突然,好平啊,突然这么稳,有点不适应了,我的过山车呢?


更有网友谈到:畸形市场,周一都要火化了,周四KTV,直接太兴奋脑梗。



有一说一,踏空确实比亏钱难受。现在让ChatGPT给大家一些鼓励,表演《华尔街之狼》小李子在办公室演讲激励人心的经典桥段。





ChatGPT不仅能配合情绪,还能调整语调和节奏,仿佛真的在演一场戏。语音模式的情绪感知能力让对话有了更多层次感,感觉像是真在演戏,甚至有点小“飙戏”的意味。


OpenAI还给这个模式加了个自定义指令的功能,你可以指定它用什么方式回应,让它成为你的“私人定制语音助手”,不管是严肃的讲解还是搞笑的调侃,随你心情变换。



二、中文方言不在话下:地地道道的北京味儿


现在,ChatGPT现在支持50多种语言的语音功能,甚至中文方言都可以。


先来点儿北京话,“您甭说,今儿真成,走到这儿,我这叫一个舒坦!”要是ChatGPT能把这京腔儿“卷舌儿”味儿带出来,那就算它是真有进步了。


别说,ChatGPT这方言讲得真不赖,北京腔“儿”十足。除了北京话,还聊到了粤语,有没有广东的朋友?来点评下ChatGPT的粤语正不正宗?


长时间对话会发现,ChatGPT的方言逐渐“淡化”。它能用各种方言开个头,但聊着聊着就不自觉切换回了普通话。这其实是因为方言的语音数据相对有限,需要进一步打磨,才能真正做到畅快的方言唠嗑,期待它的升级。


三、说唱:只会说不会唱!


千等万等,终于等来了,看着一个月之前小部分网友的测试效果,既能Box,又能唱歌的,好不羡慕。


但我发现高级语音模式下的ChatGPT,只会说不会唱。


如果你聊到“模仿、唱歌、学谁说话”等内容,基本都会被它拒绝,这是因为OpenAI设置了相关的版权保护措施,禁止AI模仿特定的声音或生成音乐内容。



OpenAI禁止AI模仿特定的声音或生成音乐内容


给了它几个关键词,让他来段Freestyle,但它依然不会唱,而且写出来的不像说唱歌词,更像是诗朗诵。


关键词:A股涨停、OpenAI高层出走、牛马、摆摊、云养猫



视频和歌词一起食用,效果更佳哦!


ChatGPT即兴创作歌词


这词儿讲的是真溜,不仅对于五个词理解到位,而且还挺有节奏的。其中跟它对话流畅地像老友在闲聊。这功能我简直爱死了!要不是每天有时间限制,真想跟它聊个通宵。


四、可以为盲人描述画面


除了好玩,高级语音模式其实还有很多实用功能,比如对于盲人用户的支持,或者心理咨询模拟。虽然AI的语气和情绪表现并非完美,但作为日常对话的辅助工具,它的作用确实显著,尤其是在某些情感支持场景中,更加能够贴近用户需求。


设置语音:聊天时息屏可以继续对话


让ChatGPT扮演一位专业的盲人导览员,以适合盲人理解的方式描述《星夜》,包括:画作的整体布局、色彩使用和情感氛围、笔触和质感的描述、画作中的关键元素。


ChatGPT不仅描述时有感情,还照顾到了盲人的感受。对于追问的问题“画中的月亮在哪个位置”,它的回答很准确,还挺灵活的,仿佛一个真人在为盲人解说。



为盲人讲解《星夜》画作


最后


无论是日常沟通还是个性化定制,Advanced Voice Mode不仅让AI的对话体验更接近于人类,它也在多个场景中展现了前沿的技术能力和广泛的应用前景。


随着AI技术的不断迭代,这种越来越像人的语音交互模式让人惊叹。或许未来,我们与AI的对话不仅仅是工具性的交流,而是情感、文化和个性上的互动。科技让AI越来越“懂人”,而我们,也在这场互动中逐渐“懂得”AI的世界。


本文来自微信公众号:硅星GenAI (ID:gh_e06235300f0d),作者:椒盐玉兔

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定