2024-12-23

AI精选（253）-人工智能领域内的最新进展：ChatGPT新版的记忆能力更加聪明

主理人：

今日精选，深度丰富、精彩纷呈!我们诚邀大家继续关注并订阅我们内容，AI时代不落后，让每一天都充满启发和价值

一、ChatGPT新版的记忆能力更加聪明

参考过去对话：ChatGPT 可以查看你与它之间的过去对话内容，并在当前对话中引用这些信息。长期记忆信息：它不仅能记住对话中讨论的内容，还能记住您提到的一些长期信息，例如兴趣爱好、偏好或某些特定背景。更好的上下文理解： • 过去对话的记忆让 ChatGPT 能理解您之前的想法和问题，而不是每次都从头开始。 • 对于复杂的问题讨论，模型能延续之前的逻辑，给出更连贯的回答。 •个性化服务：比如，它可以记住您的语言偏好（中英切换），或者特定习惯（例如您更喜欢结构化的答案）。

二、意大利因隐私问题对 OpenAI 处以 1500 万欧元罚款

调查背景：

意大利数据保护机构于 2023 年 3 月对 ChatGPT 展开隐私问题调查。调查发现 OpenAI 存在多项隐私违规行为。

主要违规行为：

未报告数据泄露：OpenAI 未向监管机构及时报告数据泄露事件。缺乏处理个人数据的合法依据：未能证明收集和处理用户数据的法律基础。违反透明性原则：未向用户充分说明数据的收集与使用方式。年龄验证机制不足：未能有效验证 ChatGPT 用户的年龄，可能导致未成年人访问不适宜内容。

罚款与措施：

对 OpenAI 处以 1500 万欧元罚款。

来源：https://the-decoder.com/italy-fines-openai-e15m-over-chatgpt-privacy-concerns/

三、加州对 AI 的快速监管引发第一修正案争议

加州等州迅速引入 AI 相关法规，但这些法规可能违宪，特别是在涉及限制自由表达时。

现有法规的充分性：

对于误导性内容的担忧（如 AI 生成的虚假信息），现有法律（如诽谤、欺诈）已经足够应对。不需要专门针对 AI 的新法规。

关键法律案例：

2024 年 9 月，加州通过了一项法律，针对数字修改的政治内容，例如关于副总统卡玛拉·哈里斯的 AI 修改视频。两周后，法官阻止了该法律实施，裁定其与言论自由原则相悖。

AI 的知识生产潜力：

AI 被认为是继互联网后更强大的知识生产工具。MIT 研究显示，AI 可以使新材料发现效率提高 44%。Anthropic CEO 预测，AI 在生物学和医学上的应用可能将 50-100 年的进展压缩到 5-10 年。

来源：https://www.latimes.com/opinion/story/2024-12-22/ai-artificial-intelligence-california-free-speech-1st-amendment

四、Livekit推出一个开源的精准语音轮次检测模型

可精准识别用户是否说完话目前AI语音最难解决的问题之一是回合结束检测，也就是要么：过早响应：用户只是停顿思考，系统却以为用户说完了过晚响应：用户已经完成发言，但系统未及时反应 Livekit模型能精准判断“用户是否说完话”，然后才开始响应。传统方法主要依赖语音活动检测（VAD），但 VAD 只关注语音信号的存在与否，忽略了语义层面的信息，因此容易受到停顿和背景噪声的干扰。 Livekit 通过结合 Transformer 模型和传统的语音活动检测（VAD），来改进对“轮次结束检测”（End of Turn Detection, EOT）的判断。以更好地判断用户是否完成发言。用来改进语音人工智能（比如语音助手、客服机器人）在对话中判断“用户是否说完话”的能力。这种技术相比传统方法更加准确和智能。

五、Apptronik 与Google DeepMind 达成合作

其Apollo 机器人将植入Google的Gemini 2.0模型 Apollo身高 5 英尺 8 英寸，体重 160 磅，能够适应多种环境和任务。机器人采用模块化设计，方便根据不同应用场景进行硬件升级或功能调整。设计用于执行重复性、高风险或复杂任务，例如搬运、装配、检测等。能够通过智能感知和决策系统应对动态环境。

六、日语AI配音工具

能够生成自然、真实且具有情感的语音，适用于多种场景，包括动画配音、广播剧、广告配音、游戏语音等。支持多种情感表达（如开心、悲伤、愤怒等）虚拟角色库非常多，各种各样的，每个角色具有独特的语音风格，感觉很不错。提供方便的语音编辑功能，支持语音的速度、音高、情感强度调整。

七、INFP：基于音频驱动的双人对话中的互动头像生成

接收双轨音频输入能根据音频内容自动区分谁在说话，谁在听同时根据每一方的语音特点独立生成对应的动画，包括嘴唇同步、面部表情和头部动作在高性能硬件上支持超过 40 FPS 的生成速度，几乎是实时的。还可以调整模型的“情绪参数”，比如让头像看起来更开心、严肃或者放松。

八、AI 视频配音的项目感觉效果很不错啊

能够生成与视频动态动作、场景高度同步的音频内容，生成的声音和视频画面配合得非常自然。还可以通过文本提示指导生成音频，从文本中提取语义特征并生成对应的音频，例如描述场景的文本内容（如“海浪拍岸”）可以生成自然环境音效。

GitHub：https://github.com/hkchengrex/MMAudio…

演示：https://huggingface.co/spaces/hkchengrex/MMAudio…

模型下载：https://huggingface.co/hkchengrex/MMAudio/tree/main