没参加饭局的马云用语音技术买了张地铁票,竟然不用说唤醒词(附视频)

2017-12-06 14:13 来源:数据观
浏览量: 收藏:0 分享

阿里最新研发“黑科技”技术首度惊艳亮相

  12月5日,上海申通地铁集团与阿里巴巴、蚂蚁金服联合宣布,三方达成战略合作,签约仪式上,阿里巴巴最新研发的语音购票、刷脸进站、智能客流监测等“黑科技”技术首度惊艳亮相。据了解,这三项技术是今年10月上海地铁牵手阿里云以来的最新阶段成果,虽然这些技术才刚刚完成实验室测试,进入样机研制阶段,但是未来,都将逐步应用于上海地铁。

  阿里巴巴、蚂蚁金服及申通地铁集团联合推出新一代售票机,可让乘客用语音交互的形式买票,具有指定站名或票价购票、目的地模糊搜索购票等功能。也就是说,站在机器旁,你只需告诉它,如:「我要去东方明珠」,它就会自动调用云端的高德地图服务,确定目的地最近的地铁站后直接出票。

  据了解,由阿里云支撑的“METRO大都会”App将进一步引入阿里巴巴、蚂蚁金服的多项互联网技术,方便上海老百姓的出行。预计在明年初,上海地铁就将支持App扫码过闸,并支持支付宝付款。

  在上海申通地铁公司,马云亲自体验了「动动嘴」买票乘地铁。申通地铁公司与阿里巴巴联合,正在逐步对上海的自动售票机进行改造升级,并将于明年覆盖上海主要地铁线。

  对阿里巴巴而言,该项目意义重大。此前,我们听到更多的是阿里巴巴在城市道路交通等方面的布局。现在,阿里巴巴通过售票机、闸机、客流预测,开始覆盖智能票务、公共交通管理等,进一步完善其城市大脑的范畴。

  当然,这背后少不了阿里巴巴最神秘的部门——达摩院 iDST(数据科学技术研究院)的身影。这是上周声学专家、原宝利通(Polycom)声学设计与信号处理首席工程师冯津伟加入阿里巴巴 iDST 语音团队之后,该语音团队又完成的一件大事。

  作为项目主要负责人,阿里巴巴iDST资深人工智能专家、iDST 语音团队负责人鄢志杰认为,地铁智能购票系统所用的多模态交互就是阿里巴巴 iDST 团队对下一代人机交互可能性的一种尝试——你只要走近机器,不需要唤醒,它就会自动与你发生交互。

  或许未来就没有唤醒词这个概念了!

  那么,更方便的语音购票如何实现?

  地铁站人多嘈杂,准确识别语音命令是个挑战,iDST 团队将计算机视觉技术融合到语音识别技术中,攻克了嘈杂环境下的远讲降噪问题。

  ↓以下为现场暴力实测语音售票机抗干扰能力视频↓

  全球首个强噪音环境下的语音交互

  乘过地铁的人都知道,只有明确知道目的地所处的线路和站点时,乘客才能自助购票。作为全球里程数最长的地铁,上海地铁共有17条线路、367个站点,购票之难可想而知。

  而现在,只需对售票机说出目的地,如:「我要去东方明珠」,售票机会自动向乘客推荐线路和站点,乘客扫码或刷脸即可购票,全程不过数秒钟时间。

  为系统添加光学摄像头模块,通过识别机器视角内人员的嘴部动作识别说话人,并判断说话人与机器的距离以及确定拾音角度。这些视觉信号将会与音频信号相融合,通过一个大的麦克风阵列以及配套的软件信号处理器进行抑制干扰与信号增强,最终做到准确拾音。

  在语音交互方向上,强噪声、强干扰下的人机交互问题一直都是 iDST 的研究重点。鄢志杰解释说,这些视觉、听觉结合的技术被称为「多模态融合技术」,是人机交互发展的新方向。今年云栖大会上,阿里巴巴宣布成立达摩院,而达摩院的成立初衷之一便是实现下一代人机交互。

  “当前主流的远场语音识别技术在家居、办公室等比较安静的环境下能够很好地工作,但在公众场所嘈杂环境下,业界此前尚无可以达到大规模商用水平的远场语音交互整体解决方案。语音售票机是业内首个能在嘈杂的公共场所环境下,实现精准远距离语音交互的产品。”鄢志杰表示,iDST 深度融合了语音信号处理和计算机视觉技术,解决了强噪声干扰问题。

  不仅如此,目前市面上以智能音箱、语音助手等语音对话系统为代表的主流语音人机交互产品,最大的局限在于都需要通过「唤醒词+语音指令」方式进行交互,而且仅限于家居、车载等相对封闭且安静的环境,而下一代人机交互要适用于更多更复杂的场景,语音售票机能够自动检测乘客走近的行为,主动发起交互,无需用户唤醒,地铁购票项目则是阿里巴巴 iDST 团队的第一次试水!

  据悉,上海地铁语音售票机完全由阿里巴巴人工智能核心团队iDST自主研发,所运用的“下一代人机交互”技术正是阿里巴巴达摩院首批公布的重点研究方向之一。

  买票动动嘴、闸机能看脸、摄像头会数数

人脸识别过闸机

  除了买票难,忘带地铁卡也是常常令乘客头疼的事。今后,“刷脸进站”让这一问题迎刃而解。可以看到,正在研发中的新型进站闸机上,新增了一块屏幕,用户经过屏幕时,几乎无需停留,屏幕就依托阿里巴巴人脸识别技术,完成了人脸识别,开启闸机,供乘客通过。

  系统所采用的阿里巴巴人脸识别算法具备业内领先的精度和效率,在国际公开的人脸比对评测LFW中,精度超过99.5%;在身份认证1:1比对场景,误识率0.1%条件下,实测精度大于99%;1:3000身份识别场景,现场实测识别率>95%。

地铁智能客流分析

  而智能客流分析技术则是基于视频识别、数据分析机器学习和阿里云的数据可视化技术,替代肉眼,观察车站的客流速度、密度、拥挤指数等,同时结合地铁列车运营信息、外部天气信息数据,对未来流量进行预测,帮助地铁工作人员进行客流疏导、应急调度、危险防范等,保障乘客安全。

  阿里云高级算法专家王磊介绍,这项技术的难点在于如何在光线条件不稳定的地铁环境下,用现有的标清摄像头,做出高准确度的人体识别。同时还要去除同一乘客在多个摄像头中的多次出现,以及如何做准确的超短时客流预测。

  不止于此,助力上海打造首个AI地铁

  一个多月前,上海地铁正式推出手机端APP“Metro大都会”,开始试点扫码进站。上海地铁计划在明年初,在全市17条轨道交通线路全面推广扫码进站。乘客只需要在“Metro大都会”APP中一键绑定支付宝,就可以扫乘车码进站,出站时再扣除车费,无需兑换零钱和排队购票。

  “Metro大都会”APP每天都会响应上千万用户的请求命令。而阿里云的云存储、云计算和企业级互联网架构为APP提供安全、稳定、海量的存储服务,确保实时处理全天3.7万亿条记录,每秒处理9500多条记录,让乘客体验更为流畅。此外,阿里云安全产品实现端到端的安全防护,保护乘客数据不丢失、不泄露、不篡改。

  阿里云上海分公司负责人张婷华表示,今后,双方还会继续探寻将云计算、大数据、人工智能、物联网的技术引入到上海地铁中。为实现“出行+everything,打造未来城市入口,构建有温度的地铁出行生活”的目标努力。

  地铁购票是起点,底层技术还会被广泛复制

  据了解,大约半年前,鄢志杰所在的团队开始孵化这一底层技术的研发,由五个人组成的小分队负责。在这次项目方案中,iDST 内部也有合作,「光学摄像头,是任小枫团队给我们 API 的调用,我们做了多模态整合。」鄢志杰说。

  鄢志杰透露,地铁项目给团队带来的挑战是系统稳定性以及快速学习能力。在地铁这样的公共服务设施中,系统需要全天候工作。并且不像互联网云端项目方便修改,地铁项目的修改灵活性要稍差一些。

  另外,项目正式上线运营后,大规模的用户涌入,如何识别用户千奇百怪的交互方式也是团队需要面对的难点之一,这需要系统具备很强的快速学习能力,迅速适应用户的自然表达方式。

  而这只是项目底层技术——嘈杂环境下远讲降噪技术第一个使用场景,并非针对项目定制。在地铁语音购票之外,它还有很强的普适性。在如机场、火车站、展会、社区、餐厅、商场等开放的嘈杂场景下,该技术都能发挥作用。例如社区问讯系统、电梯广告交互系统、景区导览等。

  鄢志杰表示:「这些嘈杂环境是用户生活中最常遇到的,同时从技术层面来说本身又是最难的一类场景。」

  阿里巴巴正积极寻找新场景,与合作伙伴一起开发落地途径。鄢志杰表示,团队希望这一技术能走到每一个人身边。「之前我没有见到过哪一家公司能在这么嘈杂的公共环境下做远距离的交互。」鄢志杰说,这是阿里人工智能的底气!

标签:

责任编辑:何雪萍
在线客服