如果安全摄像头不仅可以捕捉视频,还可以了解正在发生的事情--实时区分日常活动和潜在的危险行为,会怎么样?弗吉尼亚大学工程与应用科学学院的研究人员正在通过他们的最新突破来塑造未来:一种人工智能驱动的智能视频分析仪,能够以前所未有的精度和智能检测视频片段中的人类行为。
该系统被称为语义和运动感知时空变压器网络(SMAST ) ,承诺通过加强监控系统和改善公共安全来实现更先进的医疗保健运动跟踪以及改进自动驾驶汽车在复杂环境中的导航方式,从而带来广泛的社会效益。

“这项人工智能技术为在一些最苛刻的环境中进行实时动作检测打开了大门,”该项目的首席研究员、电气和计算机工程系主任斯科特·阿克顿( Scott T. Acton )说。“这种进步可以帮助预防事故,改善诊断,甚至挽救生命。”

人工智能驱动的复杂视频分析创新

它是如何做到的呢?SMAST的核心是由人工智能驱动的。该系统依靠两个关键组件来检测和理解复杂的人类行为。第一个是多功能选择性注意力模型,它可以帮助人工智能专注于场景中最重要的部分(如人物或物体) ,同时忽略不必要的细节。这使得系统更准确地识别正在发生的事情,例如识别某人投掷球,而不仅仅是移动他们的手臂。

第二个关键特征是运动感知2D位置编码算法,它有助于AI跟踪事物随时间的移动。想象一下,观看一个人们不断变换姿势的视频--这个工具可以帮助人工智能记住这些动作,并了解它们如何相互关联。通过集成这些功能, SMAST 可以实时准确识别复杂的动作,使其在监控、医疗保健诊断或自动驾驶等高风险场景中更有效。

SMAST 重新定义了机器如何检测和解释人类行为。当前的系统与混乱、未经编辑的连续视频片段作斗争,通常会错过事件的背景。但 SMAST 的创新设计使其能够以惊人的准确性捕捉人与物体之间的动态关系,并由人工智能组件提供支持,使其能够从数据中学习和适应。

在行动中设定新标准检测技术

这种技术飞跃意味着人工智能系统可以识别诸如跑步者穿越街道、医生执行精确程序甚至是拥挤空间中的安全威胁等行为。SMAST 已经在包括 AVA、UCF101-24和EPIC-Kitchens 在内的关键学术基准上超越了顶级解决方案,为准确性和效率设定了新的标准。

“社会影响可能是巨大的,”阿克顿实验室从事该项目的博士后研究助理马修·科尔班( Matthew Korban )说。“我们很高兴看到这项人工智能技术如何改变行业,使基于视频的系统更加智能,并能够实时理解。”

本研究基于 IEEE 模式分析和机器智能汇刊_ _中“用于动作检测的语义和运动感知时空变换器网络”一文中的工作。该论文的作者是弗吉尼亚大学的Matthew Korban、Peter Youngs和Scott T. Acton。

该项目得到了国家科学基金会(NSF ) 2000487和2322993拨款的支持。