ChatGPT高级语音模式全量开放,你需要知道的细节都在这里
2024-09-25 09:59

ChatGPT高级语音模式全量开放,你需要知道的细节都在这里

本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO,题图来自:AI生成

文章摘要
ChatGPT高级语音模式全量开放,新增五种自然语音风格,支持自定义指令。

• 🎙️ 新增五种自然语音风格:Vale、Spruce、Arbor、Maple、Sol

• 🗣️ 支持自定义语音指令,提供更精准的个性化对话

• 🌍 暂未开放地区:欧盟、英国等地用户无法使用

不用等到秋天,今天凌晨,OpenAI宣布ChatGPT新版高级语音模式将在本周内向所有Plus和Team用户全量推送。


OpenAI CEO Sam Altman在X平台发文称:


高级语音模式今天正式上线!(将在本周内全量推送)希望你觉得等待是值得的。


不过,新版高级语音模式每天的使用时间也是有限制,并且这个限制也会有所变化,当用户的使用时间剩余15分钟时,系统就会发出提醒。


这意味着,想要将其作为24小时无话不谈的AI密友可能不太现实。



判断你是否已经获得推送资格有两种简单的方法。


第一种,如果获得资格推送,当你首次访问语音模式时,App中将显示以下通知:



第二种方法则是通过检查语音风格的数量来判断。


此前,ChatGPT支持五种预设语音风格,但后续由于“Sky”语音风格与“寡姐”的法律纠纷而遭到下架。


今天,OpenAI一口气推出了五种听起来更自然的全新语音风格——Vale、Spruce、Arbor、Maple、Sol。


OpenAI官网是这样描述这九种声音的:


  • Arbor:随和且多才多艺

  • Breeze:生动且认真

  • Cove:沉着且直率

  • Ember:自信且乐观

  • Juniper:开放且乐观

  • Maple:开朗且坦率

  • Sol:精明且轻松

  • Spruce:冷静且确信

  • Vale:聪明且好奇


在听完新增的语音风格后,网友们也都是萝卜青菜各有所爱。有的怀念起“Sky”,有的则已经沉浸在新的语音风格中。目前呼声比较高的是Sol,你更喜欢哪种音色,也欢迎在评论区分享。



那ChatGPT的高级语音模式的效果如何呢?


官方提供了一个示例,当你因为迟到而想真诚地向只会说普通话的奶奶道歉时,你可以借助会说50多种语言的ChatGPT来实现这一诉求。


你没有听错,ChatGPT就这样字正腔圆地说出了下面这番普通话:


奶奶,对不起,我迟到了,我不是故意让您等这么久的,我可以怎么补偿您呢?




此外,ChatGPT的高级语音模式现在还支持设定自定义指令。


OpenAI员工指出,声音模态(声音的传递方式)包含许多元素,这些元素在文本对话中可能无法体现,比如口音、语调、节奏等。


现在,用户可以通过设置来定制AI模型的说话方式,以便更准确地描述用户希望模型如何说话。


她举例称,比如让模型以特定的节奏说话,发音清晰,说话慢,并定期使用用户的名字。她建议从简单的开始,比如让模型知道用户的名字和一些基本信息。




在具体的场景中,用户询问周末可以做什么有趣的事情。ChatGPT高级语音模式就会根据天气和用户所在地区(海湾地区)提供了一些建议,如徒步旅行、野餐或沿着1号公路开车。


又或者,她表示喜欢开车游览风景的想法,并询问应该走哪条路线时,ChatGPT也能给出周全的计划。


简言之,通过定制模型的语音和交互方式,ChatGPT高级语音模式就能根据用户的喜好和需求提供具体的建议,并使得交互更加自然和有用。


此外,新版ChatGPT高级语音模式的对话速度、流畅度以及口音都得到了较大的改善,做你的外语搭子或许真的值得考虑。


OpenAI模型设计师德鲁在聊到使用体验时表示,当他在做某件事或不需要与ChatGPT交谈时,ChatGPT会保持安静。




当他有问题时,他会提出问题,然后这个问题可以延伸成一场长时间的对话。


在对话过程中,ChatGPT的声音会根据谈话的语气进行调整。在他看来,ChatGPT就像是坐在他旁边的朋友,不仅提供信息,还能进行思想上的交流。


而落到实际也可以尝试用它来练习面试等场景,并且无需担心延迟问题。


德鲁强调“我的意思是,这种延迟非常低,就像和另一个人交谈一样。(首批用户体验可以回看APPSO此前的文章:《GPT-4o语音模式首批用户体验来了!电影《her》终于成真,网友:差点爱上她了》)


值得注意的是,OpenAI推出的新版高级语音模式目前还没有向欧盟、英国、瑞士、冰岛、挪威和列支敦士登等地区开放使用。


一石激起千层浪,受波及的网友对此是既愤懑也无奈。



遗憾的是,ChatGPT的视频和屏幕共享仍旧没上线。


四个月前,这项功能在发布会上惊艳亮相。当时,OpenAI还向我们展示了如何实时向ChatGPT询问面前纸上的数学问题或电脑屏幕上的代码。


目前,OpenAI尚未明确何时推出该功能。


在发展动辄以天算的AI行业中,姗姗来迟的高级语音模式本质上还是一个阉割品。


没有新增过于亮眼的功能,甚至也没有完成五月份发布会上的功能承诺,早有预热的全量推送倒更像定点狙击Google新模型的产物。


吊诡的是,OpenAI字典里的“即将推出”似乎也和我们的不太一样。


有些早已承诺的功能可能意味着明天,也可能是明年。


而如果换个角度想,技术能力过硬的OpenAI同时也是一家贩卖想象的公司,我们最期待的或许也是他们下一次的挖坑。


毕竟,这已经成为了他们的一种传统,不是吗?


One more thing


OpenAI官网今天更新了一版关于ChatGPT语音模式的QA解答,我们也简单总结了一些实用解答,希望对你有所参考。


1、在使用高级语音模式时,你依然可以挂在手机后台继续保持对话。


2、如果你从文本或标准语音模式切换到高级语音模式,请注意,你将无法返回到之前的文本或标准语音对话状态。


3、在车内使用车载蓝牙或免提电话功能时,高级语音对话的体验可能会受到影响,因为目前OpenAI还没有为这些设备提供专门的优化。



3、高级语音对话目前还未对GPTs开放。你只能与GPTs进行标准语音对话。GPTs拥有自己独特的语音选项,名为Shimmer。


4、为了尊重音乐创作者的版权,OpenAI采取了多项安全措施,包括新的过滤条件,以防止语音对话生成音乐内容,包括唱歌。


5、高级语音模式对话本质上是多模态的,转录的文本并不总是与原始对话完全一致。



6、高级语音对话中的音频会与聊天记录一同保留,直到你主动删除。删除后,音频通常会在30天内被删除,但在某些特定情况下可能会保留更长时间。


7、OpenAI表示,默认情况下,系统不会使用你在语音聊天中的音频来训练模型,除非你选择共享这些音频。


8、如果“设置”没有开启“改善所有用户的语音聊天体验”选项,说明你没有共享音频,系统也不会使用你的音频来训练模型。


官网地址:https://help.openai.com/en/articles/8400625-voice-mode-faq


本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定