一直专注于让AI看懂世界的 Groundlight 研究团队,近日放大招,宣布开源了一套全新的 AI 框架!这套框架旨在攻克视觉领域的一大难题——复杂的视觉推理,让AI不仅能“看图识物”,更能像福尔摩斯一样,从图像中推理出更深层次的信息。
我们都知道,现在的AI在识别猫猫狗狗方面已经炉火纯青,但要让它们理解图片背后的逻辑关系,进行更复杂的推理,就常常“卡壳”。 Groundlight 的研究人员指出,当前的视觉语言模型 (VLM) 在理解图像本身尚且不足的情况下,更难以完成需要深度解读的任务。
虽然大型语言模型 (LLM) 在文本推理方面取得了巨大进展,但视觉领域的类似突破仍然有限。现有的 VLM 在需要结合视觉和文本线索进行逻辑推演时常常表现不佳,这凸显了它们能力上的一个关键缺陷。 仅仅识别图像中的物体是远远不够的,理解物体之间的关系和上下文信息才是关键.
强化学习来助力,GRPO 成就“最强大脑”
为了提升VLM的视觉推理能力,Groundlight 的研究团队别出心裁地采用了强化学习方法,并创新性地利用了 GRPO (Gradient Ratio Policy Optimization) 来提高学习效率。
之前的研究,例如 Deepseek 的工作和语言模型的先进推理,很少将这些技术扩展到 VLM 领域。 为了验证他们的方法,研究人员设计了一个需要同时处理视觉和文本信息的密码破译任务。 模型需要使用一个随机生成的解码器图像来解读编码信息,最终,一个仅有30亿参数的模型就达到了 96% 的准确率! 注意力分析表明,模型在解决任务时能够积极地参与视觉输入,专注于相关的解码器区域。
使用 GRPO 训练 VLM 并非一帆风顺,尤其是在分词 (tokenization) 和奖励设计方面。 由于模型通常将文本处理为词元 (tokens) 而非单个字符,因此对于需要精确字符级别推理的任务来说可能会遇到困难。
为了缓解这个问题,研究人员在消息的字母之间添加了空格,以简化解码过程。 奖励设计是另一个至关重要的环节,因为强化学习模型需要结构良好的反馈才能有效地学习。 研究人员使用了三种奖励类型:格式奖励,确保输出的一致性;解码奖励,鼓励对乱码文本进行有意义的转换;以及正确性奖励,提高准确性。 通过仔细平衡这些奖励,研究人员成功避免了模型学习到意外的“捷径”,确保其真正提高了密码破译能力。
GRPO 通过比较多个输出而非依赖直接梯度计算来优化学习过程,这为训练带来了更高的稳定性。 通过为每个查询生成多个响应并相互评估,这种方法实现了更平滑的学习曲线。 这项研究也强调了 VLM 在基于推理的任务中的潜力,但也承认了复杂视觉模型带来的高昂计算成本。
为了解决效率问题,他们提出了选择性模型升级等技术,即仅在模糊不清的情况下才使用更昂贵的模型。 此外,他们还建议集成预训练的物体检测、分割和深度估计模型,以在不显着增加计算开销的情况下增强推理能力。 这种基于工具的方法为训练大型端到端模型提供了一种可扩展的替代方案,强调效率与准确性并重。
Groundlight 团队通过集成强化学习技术,特别是 GRPO,在增强 VLM 方面取得了显著的进展。 他们在一个密码破译任务中测试了他们的方法,模型展现出了令人印象深刻的准确性。
项目:https://github.com/groundlight/r1_vlm
demo:https://huggingface.co/spaces/Groundlight/grpo-vlm-decoder
评论 (0)