omniture

捷通灵云语音识别助推车联网人工智能热潮

2014-06-16 13:57

随着大数据、云计算、物联网等数字服务逐渐深入城镇居民生活,智能人机交互技术亦崭露头角,为人们所熟知和试用。其中作为智能人机交互技术(HCI)里的一支先锋军--语音识别(ASR)技术先在国内落地开花,掀起了IT圈乃至各行各业的智能语音交互风,特别是随着中国“智慧城市”概念的推进,智能驾驶、LBS大数据服务以及车联网等技术解决方案日益成熟,也为智能语音交互提供了生根发芽的土壤。

  在国内,灵云智能语音经过数十年的试炼,已形成独具一格的“ASR+TTS”完美组合方案,并且提供“云+端”定制化服务,为创建具有汉语言习惯的智能语音交互解决方案提供了可持续性发展基础。

  自国际IT巨头苹果、谷歌、微软进军智能语音领域后,在全球都刮起了一阵智能语音热潮--苹果的siri,谷歌的无人驾驶汽车,微软的智能语音助手Cortana,那么环视国内,又有哪家技术厂商足以抗衡呢?

  灵云智能语音WGDC2014会议上崭露锋芒

  近日在北京国家会议中心召开的以“融合 开放 智能”为主题的2014地理信息开发者大会(WGDC2014)上,我国着名智能驾驶专家、中国工程院院士李德毅在开幕演讲中谈到,智能驾驶在云计算、物联网和智慧城市等战略性新兴产业中处于非常重要的示范地位,而位置服务又是智能驾驶的基础。他认为大数据是支持路口导航的重要来源,是连接物理世界和虚拟精细地图的桥梁。

  而捷通华声灵云智能人机交互技术平台架构师陈明预见性地发言:“目前智能驾驶基于地图大数据提供位置服务,而随着这套数据和架构的日益完善,智能语音交互技术将被提上日程,它(智能语音)的便捷性、人性化、智能化将给予智能驾驶更多的乐趣与体验。”

  这也无怪乎现今世界各大品牌汽车制造商每推出一款新车型,必提及智能语音交互技术,这项智能语音交互体验已成为高档汽车争锋的必争之技,但是因为国外技术壁垒的出现以及语言语种的限制,国内大多数汽车制造商并不能完美应用国外的智能语音交互技术。

  正是基于这一契机,灵云(hcicloud.com)积极拓展智能语音技术与驾驶系统的对接,如今已可完美嫁接于各类主流车载系统和平台。

  灵云智能语音让汽车能说会「道」

  灵云智能语音技术解决方案不仅提供语音识别(ASR)、语音合成(TTS)、语义理解完整解决方案,而且融合了手写识别、机器翻译等多种智能人机交互技术能力,这在国内乃至全球都是不多见的。

  灵云语音合成(TTS)技术目前已拓展可支持中、英、法、俄、德、日、韩等十几国语种和中国部分地区方言以及名人模仿等定制化声音服务,无论是现今正在趋于主流的智能驾驶还是将来更加先进的无人驾驶,它从真正意义上实现了机器的人性化、智能化、个性化发音。

此外,灵云语音识别(ASR)平台级产品具有功能强大、识别率高、识别速度快、SDK开发简单、开发包资源小等优势,能够实时、准确地对输入的语音进行识别。捷通华声根据不同的用户需求又将灵云语音识别系列引擎iSpeak划分为三种:

  1.iSpeak Freetalk(自由说引擎):自由说引擎又称“听写机”或“语音转写”,基本上不限定用户说话的范围、方式和内容。自由说引擎可以对整段或者是分段传入的音频进行识别,返回识别后的文本。

  2.iSpeak KeywordSpot(关键词检出引擎):关键词检出引擎可以在连续语音流中检测出是否存在某些感兴趣的关键词。在使用时,需要事先给定一个关键词列表,系统则给出识别出的关键词在语音流中出现的位置。

  3.iSpeak SpeechAnalysis(语音质检分析引擎):质检分析引擎在自由说引擎的基础上,加入了针对语音质检分析的一些额外的分析处理能力,包括话者分离、情绪检测、静音检测和语速检测等等。

  灵云语音识别上述三种引擎可以满足IVR导航系统应用的双向需求:汽车智能体系既可以通过自助化语音服务进行有效的分流、缓解驾驶人员压力,也可以通过识别结果挖掘用户需求、完善地理导航精准性和智能性,从而使汽车驾驶实现“人车合一”的高层境界享受。

  灵云智能语音:源自清华 服务全球

  捷通华声作为国内最早提供智能语音技术服务的专业化厂商,捷通华声的灵云多语种语音合成(TTS)技术早已在金融、电信、交通、能源及CTI等领域大规模应用,在高铁、民航、医院等众多领域……捷通华声的灵云语音合成技术几乎无处不在,市场占有率超过50%,服务十三亿大众大十五年之久。有了灵云语音合成技术的雄厚市场基础,灵云语音识别在国内语音市场异军突起,“能说会听”语音交互技术双剑合璧,为车载导航、智能电视、穿戴式设备等厂商提供了最完整的智能语音解决方案。

  十几年来,捷通华声始终坚持自主研究语音合成、语音识别等智能人机交互(HCI)技术,并始终在国内智能语音技术领域保持领先者地位,在为智能驾驶、智慧城市等诸多领域提供多方面的智能技术服务支持的同时,也为保证我国智能语音交互技术始终与世界发展同步做出了重要贡献。2011年,捷通华声开创性的推出了全球第一个最大、最全的智能人机交互技术开放平台 - 灵云,提供语音合成(TTS)、语音识别(ASR)、光学字符识别(OCR)、手写识别(HWR)、语义理解、机器翻译等智能人机交互(HCI)技术能力服务,并以“云 + 端”的方式向开发者全面开放。

  捷通华声在发展智能语音与灵云平台的过程中,得到了清华大学的鼎力支持。2013年,清华大学产业基金入资捷通华声,也因此确立了捷通华声与清华大学的战略合作关系。在清华大学的支持下,捷通华声开始全面实施“灵云科技 源自清华 服务全球“的战略规划,灵云智能语音识别与灵云语音合成技术产品相辅相成,不仅为智能导航、智能驾驶、信息安全等领域系统应用提供更具中国汉语言特色的智能语音交互全面解决方案,也代表智能语音机交互技术在我国智能驾驶领域应用进入全面普及的阶段。

消息来源:CTI论坛