深入探索人工智能机器人的感知能力与机器视觉

作者：admin更新时间 2024年1月5日2024年1月5日

我们知道，人工智能的目标之一就是让计算机模拟人类的视觉、听觉、触觉等感知能力，尝试看、听、读、理解图像、文字、语音等。在此基础上，让人工智能拥有思考和行动的能力，最终会变得和人类一样。

现在，人工智能机器人的感知能力已经取得了重大进展。围绕机器视觉，机器人可以实现图像识别、目标检测和文本识别等一系列功能并得到广泛应用；围绕自然语言处理，机器人可以进行基本的语音理解、机器翻译、语音对话等；围绕机器触摸，机器人可以实现灵活的物体感知、抓取、按压等多种动作。

单一感知或感知能力无法互操作，成为当前人工智能机器人无法实现类人突破的一大原因。换句话说，就单一感知能力和单一工作而言，机器人的准确性、稳定性和耐用性可能远远超过人类，但一旦完成多流程的复杂任务，机器人的表现就会远远不如人类。。

人工智能机器人想要实现质的发展，就必须在感知能力方面实现多模态感知融合。现在，除了我们熟悉的机器视觉之外，人工智能机器人正在机器触觉和听觉方面实现突破，通过视觉、触觉和听觉的融合，大幅提升机器人的感知能力。

对于人工智能机器人，普通人要么抱有高度不切实际的幻想，担心机器人革命即将到来，要么对机器人的一般能力持怀疑态度，觉得机器人只能在少数场景下取代人类。

只有深入人工智能机器人的“犯罪现场”，看看机器人感知能力的发展而不吹牛，才能知道当前机器人感知完成计划的真正进展。

智能化机器视觉_智能视觉机器人_视觉机器智能化是什么

机器视觉和机器触觉

作为地球上最聪明的生物，人类感官获得的信息83%来自视觉，11%来自听觉，3.5%来自嗅觉，1.5%来自触觉，1%来自味觉。

在这五种感觉中，如果你不幸只保留一种，那么大多数感觉可能会保留视力。要知道，我们大脑中近千亿个神经元中的大部分都处理视觉信息。在所有的感官信息中，只有动态的视觉信息最为复杂，以至于人类不得不闭上眼睛，主动隔离自己来“休息”。

正是因为视觉信息的重要性和复杂性，在人工智能技术的发展中，除了自然语言处理之外，我们主要发展机器视觉。

这波人工智能浪潮也因图像识别的突破而重新兴起。如今，机器视觉已在工业、安防、日常消费电子、交通运输等各个领域蓬勃发展。越来越多的相机背后都具备AI图像识别能力。

对于大多数人工智能机器人来说，除了视觉能力外，还具备移动、行走和抓取的能力，这需要触觉的帮助。对于往往只有单一功能的自动化机器人来说，它们通常只需要设定固定的参数、运动轨迹和抓取力度，就可以在不睡觉的情况下完成工作任务。但对于人工智能机器人来说，它们必须灵活适应不同材质、形状、硬度的物体。这既需要机器视觉识别能力，又需要对物体的触觉判断能力。

此前，大多数机器人抓取解决方案仅依赖于机器人的视觉感知。主要解决方案是通过数据库进行图像匹配，实时监控目标物体的状态以及自身的动作，最终调整合适的抓取算法，完成对物体的抓取。然而，抓取的接触力度是机器视觉。不可替代的是，机器也需要触觉传感数据。

就像人类一样，当我们试图抓住物体时，我们会结合使用多种感觉能力，其中最基本的是视觉和触觉。由于视觉会因光线、阴影、视线遮挡等因素造成误判，因此我们通常更有效地利用皮肤的触觉来获得对物体的完整感知。

人体的触觉感知也是一个非常复杂的生物电信号响应过程，因此赋予机器触觉能力也需要非常复杂的处理。为了模拟人体的触觉反应，机器人的触觉传感器还必须能够数字化模拟物体的纹理、光滑度和形状，并将压力和振动信号转换成计算机可以处理的数据信号，因此来训练触觉算法。

机器触觉的难点在于通过触觉传感器获得的抓握等微小振动的识别。它必须能够识别所抓取物体的滑动振动以及物体与其他物体摩擦的振动。它还必须能够区分不同物体的振动。这些都是研究人员重点攻克的难点。

实现突破的途径是我们需要更好的触觉传感器，它必须比现有的压力传感器更好，并且可以嵌入柔性材料中，以实现像人类皮肤一样的人造皮肤。

最近，新加坡国立大学的两名研究人员开发了一种人造皮肤，安装在人造大脑上，可以模拟生物神经网络，并在英特尔的 Loihi 神经拟态处理器上运行。基于这项技术，研究团队通过了机械臂阅读盲文的测试。同时，在视觉传感器和这种人造皮肤的帮助下，机械臂的抓取能力也得到了显着的提升。未来，基于这种触觉能力的机器人在分拣物品的过程中可以更加灵活、细致、安全。在护理行业，他们可以为人类提供更好的护理和帮助。在手术机器人中，它们能够更好地完成手术的自动化。

视觉和触觉的结合使得改善机器人感知成为可能。那么听觉能力的整合会带来什么影响呢？

完成机器听力

这里的机器听觉并不是特指人类语音的识别。此类语音识别已广泛应用于各种消费级智能音箱等领域。这里的机器听觉是指通过声音传感器对一切物体发出的声音进行判断。

与机器视觉对物体简单直接的判断相比，机器听觉确实是一个一直被人们忽视的领域。在我们的日常生活场景中，除了用视觉来判断物体的距离、颜色和大小外，我们通常还会用听觉来识别物体的距离和纹理，并推测事件的发生。这对于有视力障碍的人尤其重要。

近日，卡内基梅隆大学（CMU）的研究人员发现，通过增加听觉感知，人工智能机器人的感知能力可以得到显着提升。

这是卡耐基梅隆大学机器人研究所首次对声音与机器人运动之间的相互作用进行大规模研究。研究人员发现，不同物体发出的声音可以帮助机器人区分物体，例如金属螺丝刀和金属扳手。机器听觉还可以帮助机器人确定哪些类型的运动会产生声音，并帮助它们利用声音来预测新物体的物理特性。经测试，机器人通过听觉对物体进行分类的准确率可达76%。

为了实现这一测试，研究人员使用了60个常见物体在机器人托盘上滑动、滚动和撞击，记录了15000个互动视频和音频，形成了一个庞大的数据集。

此外，研究人员还可以通过摇动容器或搅拌材料的声音来估计颗粒物（例如大米和面食）的数量和流量。显然，许多无法通过视觉预测的物理特性可以通过声音的比较来预测。

机器听觉无法区分红色方块和绿色方块，但它可以通过看不见的撞击声来区分两种不同的物体。这就是机器听觉的用武之地。最后，连研究人员都对声音识别物体的效果感到惊讶。

在机器听觉的应用方面，研究人员首先想到的是在未来机器人的设备中加入一根手杖，通过用手杖敲击物体来识别物体。这是一幅有趣的图画。但可以想象，机器听觉在未来的智能安防、管道线路检测、人体检测等方面可以发挥更大的作用。此外，这些应用甚至更广泛地用于识别最有意义的人类声音，例如音乐、情感和其他声音内容。

多模态感知融合在机器人中的应用前景

正如感觉器官对人类很重要一样，感知系统对机器人也同样重要。

要知道，我们人类很少只用一种感觉来获取信息，也很少只用一种感觉来指导行动。就像“攀爬-跑步-游泳”三项合一的比赛一样，我们可能无法在单个项目中击败猴子、豹子和海豚，但在整个比赛中，人类可以同时完成这三个项目。同时。。我们人类感知事物时，通常会同时使用多种感官，相互协调、多次验证，以加深对外界物体的感知。对于更复杂的事物，我们甚至需要运用记忆、推理等理性认知能力来处理感知到的事物，从而获得更复杂的认知。

与人类的多感官应用相比，机器人具有单一感知或感知能力的简单组合，且由于目前机器人的感知识别模式仍然基于算法模型对感知数据的分析和数据比较，因此很难产生更复杂的推理。因此机器人在认知复杂度上略逊于人类，但在识别物体的准确度和规模上会远远超过人类。

现在，多模态感知融合的进步将使机器人在认知复杂性方面逐渐接近人类的能力。未来，机器人将在照明与遮挡、噪声与混响、运动与相似性等复杂的交互场景中变得更加自如，从而带来多种具有明显效益的现实应用。

多模态感知融合的可能应用包括：

专业精密作业领域。例如，在难度较大的外科手术领域，手术机器人通过对目标的精确观察以及相关组织的分离和固定，可以比外科医生进行更精确的外科手术。

高风险或困难的机器人操作。例如，危险品的运输和拆解、普通人无法进入的管道等困难区域的检查和维护、地下墓葬或海底物品的运输和打捞、通过机器听觉对密封空间进行声音检测等。

安防、灾难救援、应急响应等需要灵活处理的场景，可以逐步由具有多感官系统的机器人或人机协同远程处理来处理。

此外，由于机器人感知融合能力的提升，机器人可以通过综合感知数据的训练，更好地理解人类的复杂性。特别是，可以建立更复杂的情感计算模型，更好地理解人类的表情、声音、皮肤温度、身体动作等传达的情感信号，为更先进的人机交互提供新的可能性。

目前，人工智能机器人仍然是一个复杂的系统工程。要实现机器人多模态感知融合，需要对传感器性能、算法协同、多模态任务、环境测试等方面进行综合研究。

这个过程一定很艰难，但取得成果后的未来一定是光明的。当我们憧憬人类与机器人和谐相处的未来时，我们自然期待这些机器人不再只是冰冷的机器。

你可能也会喜欢...

热门文章