微软新研究：无人机获推理能力，看图就能做决策-

一般来说，人类透过感知做决定，比如看到障碍物选择躲开。

儘管这种「从感知到动作」的逻辑应用到感测器和镜头领域，并成为目前机器人自主系统的核心。但目前机器的自治程度远远达不到人类根据视觉资料做决策的程度，尤其处理第一人称视角（FPV）航空导航等开放世界感知控制时。

不过，微软 17 日分享的新机器学习系统带来了新希望：帮助无人机透过影像推理出正确决策。

微软从第一人称视角（FPV）无人机竞赛获得启发，竞赛时操作者可透过单眼镜头规划和控制无人机的执行路线，大大降低发生危险的可能性。因此，微软认为，这模式可应用到新系统，将视觉资讯直接连结至正确决策。

具体来说，新系统明确将感知套件（理解「看到的」内容）与控制策略（决定「做什幺」）分开，这样便于研究人员除错深层神经模型。模拟器方面，由于模型必须分辨模拟和真实环境间细微的差异，微软使用名为「AirSim」的高传真模拟器训练系统，然后不经修改，直接将系统安装到真实场景的无人机。

▲ 微软测试使用的无人机。

微软还使用称为「CM-VAE」的自动编码器框架紧密连结模拟与现实间的差异，进而避免过度拟合合成资料。透过 CM-VAE 框架，感知模组输入的影像从高维串列压缩成低维表示形式，比如从 2 千多个变数降至 10 个变数，压缩后的画素大小为 128×72，只要能说明最基本状态就行。儘管系统仅使用 10 个变数编码影像，但解码后影像为无人机提供「所见场景」的丰富说明，包括物体大小位置，以及不同背景资讯，且这种维度压缩技术平滑且连续。

为了展示系统功能，微软使用有前置镜头的小型敏捷四旋翼无人机测试，尝试让无人机根据 RGB 摄影机的影像自我导航。

研究人员分别在 8 个障碍框组成的长达 45 公尺 S 型轨道，以及长达 40 公尺的 O 型轨道测试安装新系统的无人机。实验证明，使用 CM-VAE 自动编码框架的无人机表现比直接编码的表现好很多。即便有强烈视觉干扰的情况下，新系统也顺利完成工作。

▲ 测试场地的侧视和俯视。

微软声称：

在模拟训练阶段，在无人机从未「见过」的视觉条件下测试，我们将感知控制框架发挥到极致。

通过模拟训练后，此系统能独立在现实世界充满挑战的环境下「自我导航」，非常适合部署于搜索和救援工作。研究参与者表示，此系统实际应用时将展现巨大潜力──儘管年龄、身材、性别、种族和其他因素都不同，但自主搜索和救援机器人更能清楚辨识出人类，并帮助人类。

Microsoft researchers train AI in simulation to control a real-world drone

微软新研究：无人机获推理能力，看图就能做决策

评论抢沙发

文章归档

评论 抢沙发

文章归档

评论抢沙发