长期以来,计算机对汉语语义的识别一直停留“字面”层面。由于语言博大精深,在日常交流的不同语境下,同一词或短语的语义以及语言背后的动机和意图,都可能会大相径庭。如何让计算机“听懂”汉语,是我国科研人员攻克的技术难点。日前,国内综合大数据人工智能公司“中润普达”宣布,公司在基于大数据的中文“认知矩阵”和“动态平衡模型”计算技术上实现突破,将有效提升计算机对自然条件下的汉语语义识别的准确率。
中润普达集团执行总裁杜小军说,通俗讲,要让计算机“听懂”人话,要在“听”和“懂”两方面破题。在“听”的环节,首先需要让计算机排除汉语方言和说话者个人因素的干扰,准确捕捉到说话者的发出的每一个音节,通过音节组合准确锁定对应的词语,并在数据库中调取词语相关解释。目前这一层面的技术经过多年发展已趋于成熟。
杜小军说,为了让计算机不仅会“听”还能“懂”,中润普达投入上亿元,自主研发了中文认知矩阵和动态平衡模型计算技术。简单的说,是让计算机在海量的语言大数据中快速提取关键信息,利用“信源”“分词”和“规则”搭建的多维“认知矩阵”,对特定词语实现智能分析、动态主题归纳,并进行话语的语境分析和情感辨识,从而大幅提升计算机对汉语的理解能力。
例如,问机器“你吃了吗?”,机器人通常回答:“我是机器人,不吃饭”,或者“我没吃”。而采用了中文“认知矩阵”和“动态平衡模型”计算技术的机器人,能够根据语境准确判断出这是一个“是与否”的问题,还是一句带有“只想近一步沟通交流”暗示的问候起始语,从而做出不同的反应。
中润普达方面表示,这项科研成果已申请专利,下一步将把科研重心转向计算机对汉语长句、段落、文章层面的辨识。机器人通过与人类进行深层次的沟通对话,能读懂“人心”,或将不再只是科幻片中的场景。