欢迎来到AI 日报栏目! 这里是你每天探索人工智能世界的指南,每天我们为你呈现 AI 领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新 AI 产品应用。

新鲜 AI 热点点击了解: https://momodel.cn/news

1、阿里通义开源支持链式推理的音频生成模型ThinkSound

阿里语音AI团队开源了全球首个支持链式推理的音频生成模型ThinkSound,该模型通过引入思维链技术,突破传统视频转音频技术的局限,实现高保真、强同步的空间音频生成。这一技术进步标志着AI音频从“看图配音”向“结构化理解画面”的跨越。

【🔥AI日报】阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0-Mo 动态

【AiBase提要:】

🧠 ThinkSound首次将多模态大语言模型与统一音频生成架构结合,实现精准音频合成。

📊 研究团队构建了包含2531.8小时高质量样本的AudioCoT数据集,提升模型处理复杂指令的能力。

🚀 ThinkSound在多个测试集中表现优于主流方法,代码和预训练权重已开源,开发者可免费获取。

详情链接:https://github.com/FunAudioLLM/ThinkSound https://huggingface.co/spaces/FunAudioLLM/ThinkSound https://www.modelscope.cn/studios/iic/ThinkSound

2、谷歌Veo3重磅升级,支持静态图片生成生动视频

谷歌宣布对 AI 视频生成工具 Veo3进行重磅升级,用户只需上传一张静态照片即可生成高质量的音频和视频内容,展示了 AI 在创作领域的巨大潜力。Veo3的核心功能包括保持角色在多个镜头下的一致性,并提供丰富的运镜功能,如推镜头。此外,用户可以选择不同质量的生成模型,但需要消耗相应的 credits。

【🔥AI日报】阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0-Mo 动态

【AiBase提要:】

🖼️ Veo3升级后支持从单张静态图片生成高质量动态视频。

🎥 支持运镜功能,如推镜头(Dolly in),提升视频专业性。

🔊 用户可选择不同质量模型,但需消耗相应 credits 资源。

3、Hugging Face发布新一代小参数模型 SmolLM3:128K上下文,双模式推理

Hugging Face发布了SmolLM3,一款具有30亿参数的小型开源模型,其性能优于Llama-3.2-3B和Qwen2.5-3B。该模型支持多种语言处理,并具备双模式推理功能,同时公开了架构细节以促进研究与优化。

【🔥AI日报】阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0-Mo 动态

【AiBase提要:】

🧠 SmolLM3拥有30亿参数,性能超越同类开源模型,支持多语言处理。

⚙️ 提供深度思考和非思考两种推理模式,灵活应对不同需求。

📊 采用先进的transformer解码器架构,通过三阶段混合训练提升能力。

详情链接:https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base

4、阿里开源 WebSailor,具备强大的推理和检索能力

阿里通义开源了网络智能体 WebSailor,其在中英文任务的 BrowseComp 评测集中表现出色,超越了 DeepSeek R1和 Grok-3等闭源模型,展现了强大的推理和检索能力。银河证券指出 AI Agent 经济已全面开启,并建议关注布局领先的 SAAS 企业。相关上市公司如焦点科技和中科金财已在 AI Agent 技术应用上有所布局,推动了智能体技术的发展。

【🔥AI日报】阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0-Mo 动态

【AiBase提要:】

📌 阿里通义开源 WebSailor,展现出色的推理与检索能力。

📈 银河证券指出 AI Agent 经济全面开启,建议关注相关 SAAS 企业。

💡 相关公司如焦点科技和中科金财在智能体技术应用上具备明显优势。

详情链接:https://github.com/Alibaba-NLP/WebAgent

5、Moonvalley发布Marey Realism v1.5:原生1080P AI视频模型,零版权风险引领行业新风向!

Moonvalley推出的Marey Realism v1.5AI视频生成模型在画质、创作自由度和法律合规性上实现了全面升级。其原生1080P视频生成能力、基于授权内容的训练数据以及精准解读复杂提示的能力,为影视制作和广告创意提供了更安全、高效的工具。

【🔥AI日报】阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0-Mo 动态

【AiBase提要:】

🎥 原生1080P视频生成能力,提供接近真实拍摄的视觉体验。

🔒100%授权数据训练,彻底规避版权风险。

🔄 支持文本到视频和图像到视频生成,提升创作灵活性。

6、Vidu Q1震撼升级:参考转视频支持最多七张图像,AI视频生成再创新高

Vidu Q1的‘参考转视频’功能允许用户上传最多七张参考图像,生成视觉一致性极高的1080p视频。该技术通过语义融合确保多图像元素在视频中保持一致,解决了传统AI视频生成中的场景断裂或角色失真问题,为创作者提供了强大的工具。

【AiBase提要:】

🎥 支持最多七张参考图像,提升视频创作灵活性

🔍 语义融合技术确保多图像元素在视频中保持高度一致

🔄 多主体一致性技术实现复杂场景的连贯视觉体验

7、苹果研发类似 ChatGPT AI 客服助手,提升用户支持体验

苹果公司正在开发一款基于人工智能的‘支持助手’,旨在为用户提供更智能和高效的客户服务体验。该功能已在 Apple Support 应用代码中被发现,未来将允许用户在联系客服前获得 AI 生成的解决方案,提高服务效率。

【AiBase提要:】

🍎 苹果正在开发一款基于 AI 的支持助手,以提升客户服务效率。

💬 用户可在联系客服前通过 AI 获得问题解决方案,减少等待时间。

🔄 支持助手可能允许上传文件,丰富互动体验。

8、飞书重磅发布多款AI新品,打造企业级“豆包”

飞书发布了多款AI产品,包括知识问答、AI会议、Aily、飞书妙搭等,旨在加速AI在企业级应用中的落地。同时,飞书还推出了业界首个AI应用成熟度模型,帮助企业评估AI产品的实际效果。

【AiBase提要:】

🚀 飞书推出多款AI产品,助力企业实现智能化运营。

📊 发布AI应用成熟度模型,提升企业对AI产品的判断能力。

📈 飞书多维表格性能与AI能力双重飞跃,支持大规模数据处理。

9、微软、OpenAI 与 Anthropic 联合推出教育工作者 AI 培训中心

美国教师联合会(AFT)联合微软、OpenAI 和 Anthronic 成立全国人工智能教育学院,旨在为教师提供免费的AI工具培训,帮助他们更好地利用人工智能技术。该项目获得2300万美元资金支持,推动教育领域的技术变革。

【AiBase提要:】

👩‍🏫 教师将通过AI培训掌握新技术,确保在教育中的主导地位。

💰 微软、OpenAI 和 Anthropic 提供2300万美元资金支持AI教育项目。

📚 AI学院致力于推动教育民主化,确保技术服务于学生和教师。

10、昆仑万维重磅发布 Skywork-R1V3.0:跨模态推理能力直逼人类专家!

【🔥AI日报】阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0-Mo 动态![]
昆仑万维发布 Skywork-R1V3.0,展现出卓越的多模态推理能力,训练样本少但表现出色,达到了人类专家水平。

【AiBase提要:】

  1. 🤖 Skywork-R1V3.0在跨模态推理中取得76.0分,超越多款闭源模型。

  2. 🔬 该模型使用1.2万条微调样本和1.3万条强化学习样本进行训练。

  3. 📊 在物理、逻辑和数学推理测试中表现优异,分别获得52.8分、59.7分和77.1分。

来源https://www.aibase.com/zh/