欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:
https://top.aibase.com/

1、阿里通义万相预告Wan 2.2-S2V模型:解锁AI视频音频同步生成

阿里通义万相团队在社交媒体平台X上发布了其最新AI模型Wan 2.2-S2V,该模型能够同步生成视频和音频,实现视频与音频的深度融合。这标志着多模态AI生成技术的重要进展,为内容创作者提供了更高效、更具表现力的工具。

【🔥AI日报】Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型-Mo 动态

【AiBase提要:】

🔥 Wan2.2-S2V模型具备视频与音频同步生成能力,突破传统视频生成模型的限制。

🎵 模型能生成包含唱歌音频的AI视频,展现多模态AI生成技术的创新性。

🚀 此模型可能重新定义AI视频生成领域的标准,推动沉浸感和真实感内容生成的发展。

2、字节跳动内测全新 3D 模型生成工具 “3D Model Generator”

字节跳动旗下的豆包团队正在研发一款名为“3D Model Generator”的新型3D模型生成工具,旨在为用户提供可控的大规模生成模型功能。该工具支持基于图像生成和结合图像与模型文件的生成方式,降低了3D建模的门槛,尤其在游戏开发领域具有重要意义。

【🔥AI日报】Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型-Mo 动态

【AiBase提要:】

🖼️ 支持基于图像生成3D模型,降低3D建模门槛。

⚙️ 提供结合图像和模型文件的生成方式,增强创作灵活性。

🚀 预计对外开放,扩展豆包功能,服务更广泛用户需求。

3、手机也能跑!面壁智能重磅发布MiniCPM-V4.5:4.1亿参数碾压GPT-4.1-mini

面壁智能与清华大学NLP实验室联合推出MiniCPM-V4.5,作为端侧多模态大模型,其性能卓越且部署高效。该模型在多项基准测试中表现优异,支持多语言、视频和高分辨率图像处理,适用于边缘设备,推动了AI技术的普及。

【🔥AI日报】Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型-Mo 动态

【AiBase提要:】

🌟 MiniCPM-V4.5以4.1亿参数实现高性能,超越GPT-4.1-mini等模型。

🖼️ 支持多图、视频理解及高分辨率图像处理,OCR性能领先主流模型。

📱 高效部署于边缘设备,适合移动、离线场景,降低开发门槛。

详情链接:https://huggingface.co/openbmb/MiniCPM-V-4_5

4、苹果推出AI训练新方法 用任务清单替代人工评分显著提升模型性能

苹果公司研究团队提出了一种名为基于清单反馈的强化学习(RLCF)的创新训练方法,通过用具体任务清单替代传统的人工点赞评分机制,大幅提升了大语言模型执行复杂指令的能力。该方法在多个评测基准中表现出色,尤其在处理复杂多步骤任务时效果显著。

【AiBase提要:】

🍎 RLCF方法通过任务清单替代人工评分,提升模型执行复杂指令能力。

📊 在FollowBench、InFoBench等测试中,性能提升显著,最高达8.2%。

⚙️ 使用大规模模型生成检查清单,为小模型提供优化指导,但需强大计算资源支持。

5、微软开源 VibeVoice-1.5B 模型:90 分钟超长语音合成新突破

微软开源了其最新音频模型 VibeVoice-1.5B,该模型在语音合成技术上实现了多项重大突破,包括支持90分钟超长语音合成、四位发言人支持以及3200倍的音频压缩率。同时,其双 tokenizer 架构有效解决了音色与语义不匹配的问题,为语音合成领域带来了新的技术突破。

【AiBase提要:】

🔊 VibeVoice-1.5B 模型可一次性合成90分钟的超长语音,支持最多四位发言人。

💾 该模型实现3200倍的音频压缩率,保持高保真语音效果。

🤖 采用双 tokenizer 架构,解决音色与语义不匹配的问题。

详情链接:https://huggingface.co/microsoft/VibeVoice-1.5B

6、谷歌Imagen 4正式上线 Gemini API 和 Google AI Studio

谷歌公司发布了全新的文本转图像生成模型Imagen4,通过Gemini API和Google AI Studio平台向用户开放。该模型包含三个版本,分别针对不同需求优化,提升了图像生成质量、速度和成本效益,为艺术创作、广告设计等多个行业提供了强大的工具支持。

【AiBase提要:】

🌟 Imagen4标准版提升了整体图像生成质量,特别是在文本渲染准确性方面表现突出。

⚡ Imagen4Fast版本优化了快速图像生成和大批量处理任务,处理速度显著提升,使用成本降至每次生成0.02美元。

🖼️ Imagen4Ultra版本能够生成更精细的图像细节,并能更准确地遵循用户输入的文本提示,确保生成结果的一致性和准确性。

7、字节跳动AI核心人才流失 视觉研究负责人冯佳时正式离职

冯佳时作为字节跳动Seed大模型视觉基础研究团队的核心负责人,其离职对公司的AI研究布局产生了一定影响。他在计算机视觉领域拥有深厚的学术背景和丰富的经验,并在加入字节跳动后取得了显著的成就。

【AiBase提要:】

🔥 冯佳时是字节跳动Seed大模型视觉基础研究团队的负责人,其离职引发广泛关注。

💡 冯佳时拥有中国科学技术大学、中科院自动化研究所和新加坡国立大学的教育背景,具有深厚的学术背景。

🚀 冯佳时在字节跳动期间领导了多模态基础模型和生成模型等前沿技术的研究,为公司技术创新做出了重要贡献。

8、英伟达发布Jetson Thor机器人计算平台

英伟达推出了全新的Jetson Thor机器人计算平台,采用Blackwell GPU架构,AI算力达到2070TFLOPS,较上一代提升7.5倍。该平台配备128GB内存,支持多AI模型运行,并集成了NVIDIA Isaac仿真平台,为开发者提供统一的开发环境。

【🔥AI日报】Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型-Mo 动态

【AiBase提要:】

🚀 Jetson Thor采用Blackwell GPU架构,AI算力达到2070TFLOPS,性能提升显著。

🧠 配备128GB超大内存,支持多任务处理和复杂场景下的高效运行。

🌐 集成NVIDIA Isaac仿真平台,提供从云端到边缘的统一开发环境。

9、Genspark推出AIDesigner:一键生成品牌全案,重新定义Al设计新格局

Genspark AI Designer是一款革命性的AI设计工具,能够一键生成完整的品牌设计方案,涵盖Logo、包装、网站设计等多个领域,极大地降低了设计门槛,并受到全球设计界与科技行业的广泛关注。

【🔥AI日报】Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型-Mo 动态

【AiBase提要:】

🎨 Genspark AI Designer支持多模态输入,可生成矢量图标、3D渲染和动画视频等多种设计资产。

🌐 该工具通过自然语言指令完成复杂设计任务,实现品牌Logo、包装、网站等全链路创意解决方案。

💡 AI Designer重新定义了品牌设计流程,为创作者和企业提供了高效且经济的解决方案。

详情链接:https://www.genspark.ai/ai_designer

10、豆包正式上线未成年人保护模式

豆包推出未成年人保护模式,旨在帮助家长管理孩子的使用行为。该模式关闭了部分功能,如推荐视频、第三方网页浏览等,但保留了翻译和深入研究等功能。

【🔥AI日报】Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型-Mo 动态

【AiBase提要:】

🔒 未成年人保护模式可由家长通过密码开启,限制部分内容的访问。

📺 推荐视频、第三方网页浏览等功能在该模式下默认关闭。

🌐 翻译和深入研究等功能仍可正常使用,确保学习和探索不受影响。

来源https://www.aibase.com/zh/