【🔥AI日报】：阿里通义千问登顶全球开源模型榜首；MiniMax推Speech-02语音模型；ChatGPT付费用户激增至2000万

欢迎来到【 AI 日报】栏目! 这里是你每天探索人工智能世界的指南，每天我们为你呈现 AI 领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新 AI 产品应用。

新鲜 AI 热点点击了解: https://momodel.cn/news

1、阿里通义千问 Qwen2.5-Omni 登顶全球开源模型榜单

2024年4月2日，Hugging Face发布了最新的大模型榜单，阿里巴巴的Qwen2.5-Omni凭借其卓越的性能和多模态能力，成功登顶，成为全球开源模型的领军者。此成就不仅展示了阿里在技术研发上的实力，也为AI技术的普及和应用创造了条件。

【🔥AI日报】：阿里通义千问登顶全球开源模型榜首；MiniMax推Speech-02语音模型；ChatGPT付费用户激增至2000万-Mo 动态

【AiBase提要:】

🏆 Qwen2.5-Omni成为全球开源模型榜单第一，展现强大性能和多模态能力。

🔍 DeepSeek-V3-0324和SpatialLM-Llama-1B紧随其后，为开发者提供更多选择。

🌐 阿里通义千问已开源200款模型，推动AI技术的普及和应用。

2、MiniMax Audio推Speech-02语音模型，一次性可以输入20万字符

MiniMax Audio最近推出了全新的Speech-02系列语音模型，支持超过30种语言，且一次性可输入多达20万字符。新模型不仅在语音合成的自然度上达到了99%的人声相似度，还解决了音频播放中的节奏故障问题，确保了流畅的听感。此外，新的“Read Anything”功能和“Long-Text Mode”使得用户可以更方便地获取和处理长文本内容，极大地提升了用户体验。

【🔥AI日报】：阿里通义千问登顶全球开源模型榜首；MiniMax推Speech-02语音模型；ChatGPT付费用户激增至2000万-Mo 动态

【AiBase提要:】

🎤 Speech-02系列支持30多种语言，语音相似度高达99%，提供自然流畅的音频体验。

📄 新增的“Read Anything”功能允许用户上传文件或粘贴URL，随时收听各类内容。

📝 “Long-Text Mode”支持一次性输入20万字符，便捷处理长文本，适合音频书籍和播客制作。

详情链接:https://www.minimax.io/audio

3、赚麻了!ChatGPT付费用户激增至2000万，年化营收增长30%

OpenAI的ChatGPT在短短三个月内付费用户数量突破2000万，年化营收增长近30%，显示出用户对这一人工智能工具的强烈需求。尽管付费用户比例略有下降，但每周活跃用户已达到5亿。为了支持日益增长的用户群体，OpenAI计划融资400亿美元，尽管公司仍处于亏损状态，预计距离盈利还有五年。

【AiBase提要:】

🌟 ChatGPT的付费用户已突破2000万，年化营收增长30%。

💰 OpenAI计划融资400亿美元，仍在追求盈利之路。

🚀 竞争对手Gemini、Claude和Grok正在迅速增长，市场竞争日益加剧。

4、ElevenLabs发布全球首款犬类AI文本转语音模型“Text To Bark”

ElevenLabs推出了全球首款专为犬类设计的AI文本转语音模型“Text To Bark”，该技术能够将人类输入的文字转化为高度逼真的狗吠声，声称95%的狗无法分辨声音的来源。这一创新为人类与宠物之间的沟通提供了新的可能性，尽管狗可能仍无法理解具体意图。

【AiBase提要:】

🐕‍🦺“Text To Bark”模型可将文字转化为狗吠声，声称95%的狗无法分辨其真实性。

🎤 用户可选择犬种并调整吠声的语气和节奏，适应不同场景需求。

🌐 ElevenLabs计划将该技术扩展至其他动物，探索多模态交互系统。

详情链接:https://top.aibase.com/tool/text-to-bark

5、还在为处理多图发愁?腾讯元宝更新，多图上传+智能处理一键搞定

腾讯元宝最近进行了重大的功能升级，特别是在图像识别方面的能力得到了显著增强。用户现在可以一次性上传多达10张图片，无论是使用混元还是DeepSeek模型，均可实现连贯的识图与理解。这一功能在实际应用中展现出极高的实用性，能够帮助用户快速提炼信息、生成文案，甚至将草图转化为网页demo。

【🔥AI日报】：阿里通义千问登顶全球开源模型榜首；MiniMax推Speech-02语音模型；ChatGPT付费用户激增至2000万-Mo 动态

【AiBase提要:】

📸 支持一次性上传10张图片，提升图像识别效率。

📝 结合混元多模态理解能力，提供连贯的内容分析与文案生成。

💻 多平台全面支持，包括手机版、电脑版和网页版，操作便捷。

6、EasyControl_Ghibli模型上线:免费解锁吉卜力风格图像生成

EasyControl_Ghibli模型的上线为用户提供了一个免费的工具，可以轻松生成吉卜力风格的图像。它突破了传统AI图像生成的限制，让普通用户也能参与到艺术创作中，体验到科技带来的乐趣与温暖。尽管模型仍有成长空间，但其开源特性和易用性为教育、娱乐和个人表达开辟了新的可能性，展现了AI技术的潜力与魅力。

【AiBase提要:】

🌟 EasyControl_Ghibli模型在Hugging Face平台上线，用户可免费生成吉卜力风格图像。

🖼️ 该模型基于100张真实亚洲面孔的照片训练，能够捕捉吉卜力作品的光影与情感。

🚀 模型的开源特性和易用性使得普通用户能够轻松参与艺术创作，拉近人与人之间的距离。

详情链接:https://top.aibase.com/tool/easycontrol-ghibli

7、飞桨3.0正式发布，支持文心4.5等大模型，跨芯片适配成本降80

百度旗下的深度学习平台飞桨最近推出了其新一代框架3.0，标志着深度学习领域的一次重要技术革新。该框架通过引入五大核心技术创新，如动静统一自动并行，显著降低了大模型的开发和训练成本，并提升了性能和适配性。飞桨3.0支持多款主流大模型，并实现了跨芯片的无缝迁移，硬件适配成本降低了80%。

【AiBase提要:】

⚙️ 飞桨框架3.0引入五大核心技术创新，降低大模型开发和训练成本。

📈 通过优化的DeepSeek-R1单机部署，吞吐量提升高达一倍。

💻 支持60余款主流芯片，实现跨芯片无缝迁移，适配成本降80%。

8、Krea整合Gemini文字生图与图像编辑功能:Chat界面迎来实用性飞跃

Krea最近与Google Gemini的深度整合，成功引入文字生成图像和图像编辑功能，极大提升了平台的生成能力和用户体验。这一更新使Krea Chat界面从简单的对话工具转变为一个综合创作平台，能够快速生成和编辑视觉内容，降低了创作门槛。

【AiBase提要:】

🖼️ Krea与Google Gemini整合，推出文字生成图像及图像编辑功能，提升用户体验。

💡 用户可通过自然语言描述快速生成和编辑图像，降低创作门槛。

🚀 此次更新有望缩短创意产业从概念到成品的周期，推动团队创作效率。

9、腾讯发布GeometryCrafter:用AI解锁开放世界视频的几何一致性之美

腾讯近期推出的GeometryCrafter模型在开放世界视频的几何估计方面取得了重大突破，利用扩散先验技术，成功实现了动态视频内容的深度理解和处理。该模型能够在无需额外信息的情况下，提取并生成一致的几何信息，填补了该领域的空白。

【🔥AI日报】：阿里通义千问登顶全球开源模型榜首；MiniMax推Speech-02语音模型；ChatGPT付费用户激增至2000万-Mo 动态

【AiBase提要:】

🌐 GeometryCrafter通过扩散先验技术实现开放世界视频的一致性几何估计，提升了视频内容的深度理解能力。

🔍 该模型能够在无需相机位姿或光流数据的情况下，生成细腻且连贯的深度序列和几何结构，填补了行业空白。

💡 腾讯选择在Hugging Face上开源模型代码，推动AI技术的普惠化，让更多创作者参与到技术探索中。

详情链接:https://huggingface.co/papers/2504.01016

10、Meta推AI系统MoCha:文字秒变生动动画角色，口型动作自然流畅

Meta与滑铁卢大学的研究团队联合推出的MoCha AI系统，通过文本描述生成全身动画角色，具有同步语音和自然动作的能力。这一技术的推出标志着内容创作的效率和表现力将得到显著提升，尤其是在数字助理、虚拟化身等领域展现出广泛的应用潜力。

【AiBase提要:】

🎭 MoCha系统能够根据文本生成全身动画角色，具备自然动作和同步语音的能力。

🗣️ 通过创新的“语音-视频窗口注意力”机制，MoCha实现了更精确的唇部同步，解决了音频与视频生成中的挑战。

👥 多角色管理系统简洁高效，用户只需定义一次角色信息，即可在不同场景中引用，提升了创作便捷性。

详情链接:https://top.aibase.com/tool/mocha

11、GPT-4.5首度以“人格扮演”通过图灵测试:AI对话能力迈向新高度

加州大学圣地亚哥分校的研究显示，OpenAI的GPT-4.5在图灵测试中首次以“人格扮演”方式超越人类表现，成为最具类人对话能力的AI系统。该模型在语言自然度和情感表达上表现出色，能够灵活应对裁判的情感变化，展现出类人社交智能。这一突破不仅推动了AI技术的发展，也引发了对AI智能标准的深刻讨论。

【AiBase提要:】

🤖 GPT-4.5在标准图灵测试中以73%的通过率超越人类表现，成为首个真正“通过”的AI模型。

💬 该模型展现出惊人的语言自然度和情感丰富性，能够根据裁判的语气灵活调整回答。

🧠 GPT-4.5的成功源于其复杂的人格扮演机制和对话策略，推动了AI技术的应用潜力。

详情链接:https://arxiv.org/pdf/2503.23674

12、OpenAI 悄悄上线 OpenAI 学院，免费提供 AI 教育资源

OpenAI 最近推出了全新的教育平台——OpenAI 学院，旨在为全球用户提供免费且高质量的人工智能学习资源。该平台涵盖从基础知识到高级技能的多种课程，适合自学者、教育工作者和开发人员。尽管没有进行大规模宣传，这一举措被认为是OpenAI在推动AI教育普及方面的重要一步，受到业内人士的广泛欢迎。

【🔥AI日报】：阿里通义千问登顶全球开源模型榜首；MiniMax推Speech-02语音模型；ChatGPT付费用户激增至2000万-Mo 动态

【AiBase提要:】

📚 OpenAI 学院提供数十小时的免费学习材料，涵盖人工智能的基础知识与高级技能。

💻 该平台面向自学者、教育工作者和开发人员开放，课程形式灵活多样，包括线上和线下活动。

🌍 OpenAI 学院的推出标志着公司在教育和知识传播领域的积极角色，旨在降低AI学习的门槛。

详情链接:https://academy.openai.com/?continueFlag=bc9fbeae4c35e24ba47bde4cf390e735

来源https://www.aibase.com/zh/

【🔥AI日报】：阿里通义千问登顶全球开源模型榜首；MiniMax推Speech-02语音模型；ChatGPT付费用户激增至2000万

1、阿里通义千问 Qwen2.5-Omni 登顶全球开源模型榜单

2、MiniMax Audio推Speech-02语音模型，一次性可以输入20万字符

3、赚麻了!ChatGPT付费用户激增至2000万，年化营收增长30%

4、ElevenLabs发布全球首款犬类AI文本转语音模型“Text To Bark”

5、还在为处理多图发愁?腾讯元宝更新，多图上传+智能处理一键搞定

6、EasyControl_Ghibli模型上线:免费解锁吉卜力风格图像生成

7、飞桨3.0正式发布，支持文心4.5等大模型，跨芯片适配成本降80

8、Krea整合Gemini文字生图与图像编辑功能:Chat界面迎来实用性飞跃

9、腾讯发布GeometryCrafter:用AI解锁开放世界视频的几何一致性之美

10、Meta推AI系统MoCha:文字秒变生动动画角色，口型动作自然流畅

11、GPT-4.5首度以“人格扮演”通过图灵测试:AI对话能力迈向新高度

12、OpenAI 悄悄上线 OpenAI 学院，免费提供 AI 教育资源

评论 (0)

立刻扫码参与活动

热门文章

换一批

MO 圈子

推荐课程

换一批

推荐项目

换一批

微信大招加码： 10 亿大模型额度免费送，AI生图额度暴涨十倍

快手 KwaiKAT 发布 KAT-Coder-Pro V2.5：告别"补代码"，首个能端到端跑通完整工程的国产 Agentic 编程模型

微软开启“AI 自主化”总攻：拟 2027 年问世最强自研模型

OpenClaw危！Claude 重磅更新：AI 真的可以操控你的电脑了

【🔥AI日报】：阿里通义千问登顶全球开源模型榜首；MiniMax推Speech-02语音模型；​ChatGPT付费用户激增至2000万

1、阿里通义千问 Qwen2.5-Omni 登顶全球开源模型榜单

2、MiniMax Audio推Speech-02语音模型，一次性可以输入20万字符

3、赚麻了!ChatGPT付费用户激增至2000万，年化营收增长30%

4、ElevenLabs发布全球首款犬类AI文本转语音模型“Text To Bark”

5、还在为处理多图发愁?腾讯元宝更新，多图上传+智能处理一键搞定

6、EasyControl_Ghibli模型上线:免费解锁吉卜力风格图像生成

7、飞桨3.0正式发布，支持文心4.5等大模型，跨芯片适配成本降80

8、Krea整合Gemini文字生图与图像编辑功能:Chat界面迎来实用性飞跃

9、腾讯发布GeometryCrafter:用AI解锁开放世界视频的几何一致性之美

10、Meta推AI系统MoCha:文字秒变生动动画角色，口型动作自然流畅

11、GPT-4.5首度以“人格扮演”通过图灵测试:AI对话能力迈向新高度

12、OpenAI 悄悄上线 OpenAI 学院，免费提供 AI 教育资源

评论 (0)

立刻扫码参与活动

热门文章 换一批

MO 圈子

推荐课程 换一批

推荐项目 换一批

猜你喜欢

​微信大招加码： 10 亿大模型额度免费送，AI生图额度暴涨十倍

快手 KwaiKAT 发布 KAT-Coder-Pro V2.5：告别"补代码"，首个能端到端跑通完整工程的国产 Agentic 编程模型

微软开启“AI 自主化”总攻：拟 2027 年问世最强自研模型

OpenClaw危！Claude 重磅更新：AI 真的可以操控你的电脑了

在动态内搜索

Momodel

【🔥AI日报】：阿里通义千问登顶全球开源模型榜首；MiniMax推Speech-02语音模型；ChatGPT付费用户激增至2000万

热门文章

换一批

推荐课程

换一批

推荐项目

换一批

微信大招加码： 10 亿大模型额度免费送，AI生图额度暴涨十倍