语言智能研究中心

自然语言理解的能力(语言智能)是认知智能的核心。自然语言处理能力的增强会提升机器智能整体的推理和语义理解能力,进一步支持聊天、翻译、人机对话、文档阅读理解等应用的发展。认知智能,通俗讲就是“能理解会思考”。认知智能有很多东西,其内核包括语言智能、知识图谱、用户画像等。在此基础上,支持几个方面的应用,例如智能写作、聊天对话、诗歌创作、文本生成、游戏博弈等。目前认知智能相对于感知智能而言,总体上来讲,在引入深度学习方面落了半拍,但目前处于奋起直追的状态。比如,神经机器翻译的质量越来越好,聊天系统、人机对话也越来越好。

自然语言理解(语言智能)处在认知智能最核心的地位。其进步会引导知识图谱的进步,会引导对用户理解能力的增强,也会进一步推动整个推理能力。在此基础上,聊天、解题、翻译、对话等也都会得到进步。比尔·盖茨曾经说“语言理解是人工智能皇冠上的明珠”,沈向洋博士也说过“懂语言者得天下”,2018年图灵奖得主、深度网络之父辛顿(Geoffrey Hinton)认为:“深度学习的下一个大的进展,应该是让神经网络真正理解文档的内容”,2018年图灵奖得主、Facebook人工智能负责人杨乐昆(Yann LeCun)认为:“深度学习的下一个前沿课题是自然语言理解”。他们都强调了语言智能的极端重要性。自然语言处理的技术会推动人工智能整体的进展,从而使得人工智能技术可以落地实用化。

在现代社会治理和企业运营过程中,存在大量的非结构化数据(如:公告、公文、政策文件,人员档案,信用评级报告、财务报告、监管文件、诉讼文书、裁判文书、合同、保单、病历、理赔报案文书和案件卷宗,以及各种电子文档等)无法通过系统处理。它们占整体数据量约80%,存储格式也多种多样(包括图片、pdf、word、邮件等),需要大量的人工进行阅读、整理和分析,从而造成理解与语义分析困难、处理效率低下、数据知识难以沉淀和共享等诸多问题。

所以,我们需要深入研究自然语言处理、知识图谱、OCR等语言智能与人工智能相关技术,将感知智能和认知智能(语言智能)进行深度融合,建立一套统一的非结构化数据处理AI平台,使机器能够阅读、整理和分析各种不同格式和来源的非结构化数据,并转化为结构化的知识,为现代社会治理和企业运营提供能看、会听、会说并具有一定推理能力的支撑性智慧大脑,以提高各机构包括政府和企业运转效率,并为各种决策分析提供敏捷支撑。例如,在银行信贷过程中,风控人员需要从各种渠道收集企业的财务报告、银行流水、已签合同、订单验收单据,交货单据、发票、库存表、案件涉诉文件等等,并逐个文档的阅读、分析和整理风控要素,然后进行风险判定,如果通过非结构化数据处理AI平台帮助风控人员阅读、分析和整理风控要素,并为其风控判定提供支撑性数据,可以大大提高处理效率和风控数据知识共享能力,为高效的社会经济、金融活动提供有力的支撑。