背景:思科认为,未来几年内,AI将能处理大部分客户服务电话。为此,该公司推出了新的会话式AI代理,旨在减少等待时间,优化客户服务体验。
Webex AI代理:在思科的WebexOne会议上发布,预计于2025年初上线。此AI代理将充当客户服务的AI助手,能够通过自然语言交互处理客户问题。
创新优势:这款代理能够应对复杂任务,如重新预订航班、信用卡更换等,通常需要人工干预的操作也可以处理,提升了客户服务的响应速度和解决率。
自2022年AI技术兴起以来,Adobe不断在其产品中加入生成式AI,尽管其主要用户群体——数字艺术家——对AI的态度日益负面。
Adobe的生成式AI副总裁Alexandru Costin表示,拒绝AI的创作者在新的数字时代中难以成功,因为未来Adobe的所有工具都会包含AI功能。他建议用户不要使用没有AI功能的旧版软件。Adobe数字媒体部门总裁David Wadhwani补充道,即使AI生成的内容不会达到手工艺术的价值,传统创作依旧被需要。他认为,真正手工创作的艺术在未来将更加珍贵。
Adobe推动AI的决定被认为主要是出于盈利考量,尤其是基于其AI功能(如Firefly)的高市场接受度。
来源:https://80.lv/articles/adobe-says-artists-should-embrace-ai-if-they-want-to-be-successful/
OpenAI 推出的 AI 转录工具 Whisper 被认为接近“人类级别的稳健性和准确性”,但存在重大缺陷:经常会编造内容,行业内称为“幻觉”。
研究人员发现 Whisper 生成的“幻觉”可能涉及种族评论、暴力言论,甚至虚构的医疗处理。Whisper 被广泛应用于访谈、字幕生成等领域,尤其在医疗领域用于转录医患对话,尽管 OpenAI 曾警告不应在“高风险领域”使用。一些研究人员发现,在每10个音频转录中有8个会出现“幻觉”,另一些则发现超半数转录含有不准确内容。
研究表明,即便是短小、录音质量良好的音频片段,也可能存在问题。Whisper 常被用来生成字幕,特别是为聋人和听力障碍人士服务,这些人可能无法识别幻觉内容。
Saras AI研究所成立,推出了全球首个专门针对人工智能的在线高等教育学位课程,包括副学士学位和学士学位。与传统的AI证书项目不同,Saras提供全面的学位教育,帮助学生在快速扩展的AI行业中脱颖而出。
课程设置:该课程由顶级AI雇主和实践者参与设计,涵盖了从理论到实际应用的AI知识,包括最终的毕业项目和实习,学生将获得开发真实AI产品和解决方案的实践经验,强调AI的伦理和负责任的应用。
就业机会:毕业生将获得直接进入AI岗位的技能,如AI/ML工程师、数据科学家和生成式AI工程师,这些岗位在当前就业市场中具有较高的薪资竞争力。
来源:https://finance.yahoo.com/news/saras-ai-institute-launches-world-130900272.html
零售商正在通过小型AI模型降低运营成本,这些模型比大型模型更经济高效,同时能够提供类似的准确性。
H2O.ai推出的两个小型AI模型(0.8亿和2亿参数)用于文档处理和文本识别,已在Hugging Face上免费提供。这些模型专注于光学字符识别(OCR)等任务,并且在一些基准测试中超过了更大的竞争对手。小型模型的优势在于,它们所需的计算资源更少,可以帮助中小型企业(SMBs)优化库存管理、需求预测和自动化补货,从而增强运营效率。
这些小型模型降低了新企业的进入门槛,让初创公司无需昂贵的GPU集群即可部署专注于动态定价和需求预测等高价值任务的AI解决方案。在客户服务领域,AI可以处理常规查询,而复杂的支持任务则由人工接手,提升了服务质量和效率。
合作内容:环球音乐集团(UMG)与洛杉矶的AI音乐公司Klay Vision达成合作,致力于创建“符合音乐产业和创作者利益的商业伦理AI模型”。
目标:合作聚焦于在AI生成音乐的过程中尊重版权并推动音乐创作,旨在确保AI技术不会威胁人类创作者的权益,同时开创音乐版权盈利的新途径。
Klay Vision的定位:Klay致力于成为支持AI音乐创新的核心力量,为音乐行业提供新产品和体验,并承诺不会与现有音乐目录直接竞争。
主要项目:Klay计划推出一种新的“大型音乐模型”(KLayMM),以改进音乐AI技术,并预备在未来几个月内发布其产品。
能保持口型同步、说话风格完美匹配 只需输入音频和参考视频,即可生成同步的视觉配音 不仅让嘴唇动作与音频完美匹配,还能保留说话者的个性特点,比如说话的速度、语调和表情。
还能同步说话者的风格,比如轻松、严肃或激动的语气,让配音更生动。 不仅如此,还能实现视频翻译,将视频说话者的语音翻译成其他语言。
从 PDF 文件生成播客的引导式教程
1、使用 Llama-3.2-1B-Instruct 模型,从 PDF 文档中提取文本内容,生成干净的 .txt 文件。
2、再使用 Llama-3.1-70B-Instruct 模型,将处理后的文本转化为播客转录,生成富有创意的内容。
3、通过 Llama-3.1-8B-Instruct 模型对转录进行戏剧化处理,使其更具吸引力和互动性。
4、将生成的文本转换为播客音频,使用多个文本到语音模型,也可以自己选择其他TTS模型。