图片来源@视觉中国
文丨王诗强
互联网信息的爆炸式增长,具有大规模、多元化、组织结构松散等特点,如何有效获取信息和知识面临巨大挑战。
近年来兴起的“知识图谱”,渐渐成为一种新颖的管理海量信息的方式,受到各大互联网公司青睐,并在不知不觉中被广泛应用于搜索、电商、社交等各个领域。
除此之外,该技术还被各大金融机构以及人工智能公司关注,开始在金融反欺诈、安防等新的领域进行尝试应用。但是,知识图谱技术依然不够成熟,从第三方获取技术服务费等商业化依然处于探索阶段。
关于知识图谱定义,复旦大学教授肖仰华在其著作《知识图谱》中这么解释:“作为一种知识表示形式,知识图谱是一种大规模语义网络,包括实体、概念及其之间的各种语义关系。”如下图,柏拉图就是一个实体,他是一个哲学家(概念)。
冰鉴科技知识图谱业务负责人认为:“知识图谱核心价值在于如何沉淀知识。图谱开始建立的时候,都是关系图谱,通过大量的模型,借助于图谱模型的高度解释性的优势,构建和形成很多隐性关系和实体标签,最后建设成为知识图谱。在关系图谱到知识图谱的建设过程中,业务专家高度参与,利用知识图谱的探索式数据分析能力,自助构建高度解释性的业务知识模型,形成知识沉淀的迭代和高度分享。”
知识图谱是典型的大数据时代产物,具有规模巨大、质量精良、结构友好等优点。
2017年,我国科学目录调整时,首次出现了知识图谱学科,教育部对知识图谱这一学科的定位是“大规模知识工程”。
知识图谱早期主要用于搜索结果优化,随着电商、互联网金融等兴起,应用领域不断增加,包括智能推荐、智能客服、金融风控、安全与安防等都在积极探索。
知识图谱的诞生最早可以追溯到2010年前后,主要是为了解决搜索引擎用户体验问题。
搜索领域主要面临两方面问题:一方面,搜索需求和搜索结果往往难以匹配,经常有“搜”非所问的情况;另一方面,搜索结果编排无序,显示杂乱。
2010年,微软开始构建MicrosoftSatori知识图谱来增强Bing搜索能力;2012年5月,Google公司为了支撑其语义搜索推出KnowledgeGraph,目前已成为全球最大的知识图谱。2012年11月22日,搜狗知立方上线,成为国内首个搜索引擎“中文知识图谱”。差不多同一时间,百度知识图谱被立项。2013 年,Facebook发布OpenGraph应用于社交网络智能搜索。
早期各大搜索平台主要依赖“关键字搜索”技术,返回给用户包含关键字的网页列表,用户需要进一步浏览这些网页并且过滤掉大量无用信息才能找到真正想要的结果,用户更希望能够“直接得到答案”。利用知识图谱技术可以直接给出用户想要的搜索结果,而不再是各类链接。如下图,搜索“上海有多少人?”360搜索直接展示出国家统计局的数据,用户直接将鼠标移动到相应年份,可以快速查看各年数据。
随后,知识图谱引入到电商搜索领域。2015年,阿里巴巴开始构建电商领域知识图谱——认知图谱;2016年Amazon也紧随其后开始构建知识图谱。2018年5月,美团点评NLP中心开始构建大规模的餐饮娱乐知识图谱——美团大脑。
在搜索领域,知识图谱能够将用户所提交的查询词理解成实体或者概念,通过实体或者概念匹配为用户返回其可能关心的全部网页内容。搜索引擎中知识图谱的搜索过程如下:
知识图谱用文本和知识融合的阅读理解模型,使搜索结果更理解客户需求。
对于电商平台来说,交易量和客户活跃度也是其核心竞争力,而客户一般都是通过搜索获得想要的商品,越精准的搜索结果,客户使用越多。
因此,百度、搜狗、阿里巴巴、美团、腾讯等不断摸索,纷纷尝试构建自己的知识图谱平台。
除了优化搜索结果,知识图谱还可以帮助电商以及社交平台解决一些智能推荐问题。例如,当前一些中小平台在智能推荐方面最大的问题是“买了啥,推荐啥”或者“推荐的商品与客户无关联”。推荐商品缺乏新颖性,导致转化效果一般。
知识图谱可以帮助电商平台跳出这种简单的推荐逻辑,使得推荐结果更加智能化,促进用户购买。
备注:左图展示了实体链接如何应用于智能问答问题推荐,问题通过SLU处理之后会得到其意图和主实体,然后借助实体推荐得到相关的实体,相关实体被用来构建相关的问题,比如说”武汉大学周边好吃的?“,识别到其主实体为”武汉大学“、核心意图为”美食“,以此推荐实体相关的问题,比如说”华中科技大学周边有什么好吃的?“,”清华大学周边有什么好吃的?“,”武汉科技大学周边有什么好吃的?“。同时实现了推荐意图相关的问题,比如说”武汉大学周边有什么好玩的?“,”武汉大学周边有什么景点?“,”武汉大学周边有什么酒店?“等等。
备注:左图展示了实体链接如何应用于智能问答问题推荐,问题通过SLU处理之后会得到其意图和主实体,然后借助实体推荐得到相关的实体,相关实体被用来构建相关的问题,比如说”武汉大学周边好吃的?“,识别到其主实体为”武汉大学“、核心意图为”美食“,以此推荐实体相关的问题,比如说”华中科技大学周边有什么好吃的?“,”清华大学周边有什么好吃的?“,”武汉科技大学周边有什么好吃的?“。同时实现了推荐意图相关的问题,比如说”武汉大学周边有什么好玩的?“,”武汉大学周边有什么景点?“,”武汉大学周边有什么酒店?“等等。右图展示了实体推荐在图谱自动化构建平台上的应用,当用户搜索一个实体的时候,平台会为其推荐相关的实体。
近些年,消费金融和小微企业贷兴起后,银行以及其他持牌金融公司、助贷机构、人工智能公司等开始将知识图谱应用于风险控制,特别是识别团伙欺诈。
知识图谱的推理能力和可解释性,在金融场景中具有天然的优势。
艾瑞咨询年初发布的《2020年中国面向人工智能“新基建”的知识图谱行业研究报告》指出,随着近些年金融数据的爆发式增长,传统风控系统逐渐力有不逮,而应用机器学习算法和知识图谱的智能风控系统在风险识别能力和大规模运算方面具有突出优势,逐渐成为金融领域风控反欺诈的主要手段。
在金融领域,知识图谱可以应用于小微企业信贷、消费信贷、信用卡申请等反欺诈业务,还可以用来识别会计造假。
基本原理简单理解是:“物以类聚,人以群分。”
”如“同一个WiFi下多个企业借款客户”,或者“同一个设备注册多个企业账号申请借款”,均有可能与欺诈相关 。
因此,信贷欺诈的识别问题可以转化为客户知识图谱挖掘或社交网络分析问题。即把企业工商信息、新闻动态、股东关系、股权变更、司法诉讼等等整合到反欺诈知识图谱里,经过分析和预测,挖掘识别欺诈案件,如利用壳公司贷款等。
据冰鉴科技知识图谱负责人介绍,目前冰鉴正在与银行合作,构建不同条件下,不同场景的知识图谱模型,给知识图谱的实体关系打上标签或者挖掘新的关系,以便更好的应用于金融风控。
图7:图特征整体框架设计
资料来源:冰鉴科技研究院
再从常见的担保业务来看,担保网络可简化为规模较小、相对独立的担保群。担保群间担保关联稀疏;担保群内部联系紧密,担保圈风险一般只发生在群内部,找到风险最大的担保群,然后就可以找到风险最大的担保企业。
在金融领域,除了冰鉴科技外,建设银行、招商银行、光大银行、南京银行等商业银行,360数科、万象智联等均在积极尝试利用该技术进行风险控制。
公安机关在侦查案件时,经常看到办案民警用图谱梳理案件及人物关系。在电视剧《人民的名义》中,警方利用知识图谱分析,可以很快看清“山水集团”背后的利益链条。
除此之外,知识图谱从大数据中深度挖掘关联关系,可准实时分析多至千亿级海量关系数据,转化为关系图谱数据,支撑公安机关展开情报研判分析、犯罪团伙跟踪以及重大事情预警等。
5、其他领域
除了以上应用领域外,智慧医疗、智能客服(智能问答)等领域也在积极利用知识图谱技术,使结果更加准确,使机器人客服更加智能。
2018年10月,知识图谱首次进入国际知名咨询公司Gartener的技术成熟度曲线,目前正处于技术成熟曲线的上升阶段,特别是学习和推理技术亟待突破,预计进入成熟期还需要5-10年。
知识融合和知识推理是知识图谱的关键技术,但目前都面临很多挑战,主要包括:
1、当知识图谱不能准确将具有同义异名的实体对齐或将同名异义的实体消歧就会导致知识图谱中出现知识冗余或缺失;
2、如何模仿人脑机制实现小样本或零样本学习知识推理;
3、知识图谱中知识的有效性往往受到时间空间等动态因素约束,如何合理利用知识的动态约束信息完成动态推理也是知识推理的一大挑战;
4、在自然语言处理仍然不能有效完成抽取任务的现实下,能否充分利用各类资源,能否有效利用已经积累的业务知识,能否充分利用人力因素进行验证或者标注,均对知识图谱落地的效果产生显著影响。
比如搜索“苹果”,淘宝出现的全是苹果手机,而京东既有苹果手机,也有苹果(水果)。这说明两家公司对同一客户需求判断出现了语义分歧,前者认为客户只需要苹果手机,后者认为客户还可能想吃苹果。但是,出现这样的结果却很难判断谁好谁坏,不同用户体验是不一样的。
此外,电商、金融、安防等等领域都可以搭建知识图谱平台,但是如何更好的与这些应用场景结合,在不同公司不同行业之间低成本迁移、商业化落地,面临重大挑战。
目前来看,电商领域(淘宝、美团等)、通用搜索平台(百度、搜狗搜索)都是自建知识图谱平台,且已经有效提高了客户体验,增加了用户粘性。但知识图谱在第三方的商业化依然处于探索阶段。
据冰鉴科技研究院了解,智能客服已经在很多行业开始商业化应用,而其核心技术就是知识图谱,极大地减少企业的客服成本。
在电商领域,未来很可能会将相关知识图谱技术对外输出,特别是一些垂直领域的电商平台。
在金融领域,第三方人工智能公司为银行等金融机构搭建知识图谱平台获取技术服务费是其主要的商业化的方法之一。如建设银行,在2019年6月对外发布人工智能运维知识图谱产品供应商征集公告。
从短期来看,在大多数细分领域,知识图谱平台商业化还比较困难,一方面缺少有效付费用户,另一方面公开数据有限、相关知识抽取困难,知识图谱平台难以搭建;从长期来看,据艾瑞咨询推算,知识图谱核心产品的市场规模预计2024年将突破200亿元,年复合增长率达到20.4%。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App
2022-09-14 钛媒体 App发布了 《星巴克加码中国市场,未来三年要新增开3000家门店|钛快讯》的文章
2022-08-11 钛媒体 App发布了 《白云山麾下公司虚抬药价“把戏”,被拆穿了》的文章
2022-07-06 钛媒体 App发布了 《为了帮00后卷王找到工作,简历修改师们拼了》的文章
2022-07-06 钛媒体 App发布了 《威尼斯向游客收“进城费”,国内城市如何借鉴?》的文章
2022-03-25 钛媒体 App发布了 《蔚来2021年财报发布:年营收361亿元,整车毛利率达到20.1%》的文章