一般来说,人类透过感知做决定,比如看到障碍物选择躲开。
儘管这种「从感知到动作」的逻辑应用到感测器和镜头领域,并成为目前机器人自主系统的核心。但目前机器的自治程度远远达不到人类根据视觉资料做决策的程度,尤其处理第一人称视角(FPV)航空导航等开放世界感知控制时。
不过,微软 17 日分享的新机器学习系统带来了新希望:帮助无人机透过影像推理出正确决策。
微软从第一人称视角(FPV)无人机竞赛获得启发,竞赛时操作者可透过单眼镜头规划和控制无人机的执行路线,大大降低发生危险的可能性。因此,微软认为,这模式可应用到新系统,将视觉资讯直接连结至正确决策。
具体来说,新系统明确将感知套件(理解「看到的」内容)与控制策略(决定「做什幺」)分开,这样便于研究人员除错深层神经模型。模拟器方面,由于模型必须分辨模拟和真实环境间细微的差异,微软使用名为「AirSim」的高传真模拟器训练系统,然后不经修改,直接将系统安装到真实场景的无人机。
▲ 微软测试使用的无人机。
微软还使用称为「CM-VAE」的自动编码器框架紧密连结模拟与现实间的差异,进而避免过度拟合合成资料。透过 CM-VAE 框架,感知模组输入的影像从高维串列压缩成低维表示形式,比如从 2 千多个变数降至 10 个变数,压缩后的画素大小为 128×72,只要能说明最基本状态就行。儘管系统仅使用 10 个变数编码影像,但解码后影像为无人机提供「所见场景」的丰富说明,包括物体大小位置,以及不同背景资讯,且这种维度压缩技术平滑且连续。
为了展示系统功能,微软使用有前置镜头的小型敏捷四旋翼无人机测试,尝试让无人机根据 RGB 摄影机的影像自我导航。
研究人员分别在 8 个障碍框组成的长达 45 公尺 S 型轨道,以及长达 40 公尺的 O 型轨道测试安装新系统的无人机。实验证明,使用 CM-VAE 自动编码框架的无人机表现比直接编码的表现好很多。即便有强烈视觉干扰的情况下,新系统也顺利完成工作。
▲ 测试场地的侧视和俯视。
微软声称:
在模拟训练阶段,在无人机从未「见过」的视觉条件下测试,我们将感知控制框架发挥到极致。
通过模拟训练后,此系统能独立在现实世界充满挑战的环境下「自我导航」,非常适合部署于搜索和救援工作。研究参与者表示,此系统实际应用时将展现巨大潜力──儘管年龄、身材、性别、种族和其他因素都不同,但自主搜索和救援机器人更能清楚辨识出人类,并帮助人类。
- Microsoft researchers train AI in simulation to control a real-world drone