原创艾瑞艾瑞咨询
知识图谱丨研究报告
核心摘要:
行业背景:感知到认知的跨越式发展,须引入发展认知技术,知识图谱在此形势下成为了破局的关键技术。数字经济的持续发展将加速知识图谱产业化进度,推动知识图谱与传统产业融合。高性能图计算可为图计算输送更快更准的计算能力,服务于知识图谱运算,算力规模化部署也为知识图谱计算的高密度、高功耗要求提供了有利发展条件。深度学习技术、NLP技术、知识图谱技术协同并进,尤其是NLP技术近几年的快速发展为知识图谱产业化提供了机会。
行业规模:年,知识图谱核心市场规模预计达到亿元,而到年,相应规模将超过亿元,-年CAGR=22.5%。金融与公安两大行业的知识图谱占比较高且增长速度较快,其业务与知识图谱可密切结合,同时具备建设意愿与资金投入,因而成为了市场规模的主要拉力。未来,随着*务数字化建设的完善,*务对知识图谱的业务需求会逐渐唤醒,成为未来市场的拉力之一。
建设重点探讨:知识图谱建设需面临的建设难点主要在于数据治理、行业专家储备、底层图数据库存储、算法生产流程与性能待提升、客户认知待培养以及产品封装形式待优化。攻克知识图谱的建设重难点将有利于从源头保证知识与智慧真实可靠、可用正确,储备培养深厚行业专家与技术复合型专家,升级底层图数据的存储方式,改善算法性能,为知识图谱建设减少阻碍。
趋势展望:未来,知识图谱厂商、大数据厂商、NLP厂商、互联网大厂与信息化厂商等知识图谱业内参与者将从强化技术实力与深化行业认知的角度出发,结合自身原有业务优势,持续深化发展行业知识图谱业务。知识图谱业务场景也将不断迭代,行业应用场景边界拓宽,垂直应用场景被做深做透。知识图谱生态也将继续由监管引导方、供给方、需求方、投资方、高校及科研院所融合共建,汇聚建设合力,促进产业生态成长壮大。
概念与研究范围界定
描绘实体之间关系的数据结构语义网络
知识图谱是人工智能的一大底层技术,是描绘实体之间关系的语义网络,自带语义、逻辑含义和规则,通过三元组即“实体关系属性”集合的形式来描述事物之间的关系。知识图谱将非线性世界中的知识信息结构化、可视化,辅助人类进行推理、预判、归类。知识图谱中的图并非图像概念,而是类似化学分子式的结构,一个知识图谱往往存在多种类型的实体与关系。知识结构网络化、网络结构复杂、网络由三元组构成、数据主要由知识库承载是知识图谱的四大基本特征。一般而言,知识图谱的数据以文本化数据为主,数据化数据为辅。
主要任务介绍
五大任务,复杂关联推理为突破重点
一般而言,知识图谱需执行的主要任务包括知识图谱构建与补全、实体统一(消歧)、实体分类、知识检索问答(简单推理)、复杂关系推理。现阶段的复杂关系推理需要更多依赖人类预测与推断各种可能的情况,并优先推荐可能性大的情况。
主流产品类型
成熟产品:通用互联网知识图谱;起步产品:行业知识图谱
知识图谱的产品类型以通用知识图谱与行业知识图谱为典型代表。通用知识图谱经过开拓性构建阶段后,逐渐演变为通用互联网知识图谱,形成搜索引擎、智能推荐、智能问答三大产品类型,产品发展较为成熟。行业知识图谱处于起步期,但其价值及效果逐渐被客户所认可,是知识图谱当前乃至未来一段时期内的发展热点。
产品形态解析
满足其一即可认定为知识图谱产品,五种形态可相互嵌套
知识图谱的产品形态颇有“盲人摸象”之意。各类厂商分别通过自然语言处理、知识库、数据库、数据平台或中台、机器学习等产品逐步接触到知识图谱,在已有的业务基础上叠加知识图谱产品,或开发出独立的知识图谱产品业务线。就当前的五大产品形态而言,其中的任意一种都可算作知识图谱产品,且知识图谱产品一般为五类产品形态的排列组合复合体。
热点探讨一:KG在数据产品中的存在感
业务了解不透彻、产品开发承接性等原因诱发的有限存在感
在各类知识图谱的产品形态中,大数据知识图谱的数据产品属性强于知识图谱属性。在数据中台、大数据平台以及其他数据解决方案中,可频繁观察到知识图谱这一画龙点睛的模块或组件,多数大数据厂商也常常自诩自己具备知识图谱能力。然而,一旦深究其中的知识图谱行业能力、底层技术能力,多数厂商的知识图谱工具往往难以覆盖知识图谱本该具备的完整生产流程,并且缺失核心的Schema建模技术,现阶段知识图谱在大数据产品中的地位及作用就显得十分有限。
热点探讨二:场景知识图谱为发展方向
殊途同归:高价值、实用性强的垂类场景知识图谱
知识图谱产品在当下及未来的行业发展热点主要围绕大数据知识图谱、行业知识图谱两大类产品展开。大数据知识图谱侧,行业参与者主要分化为两大阵营,一类选择做简单的知识图谱可视化展示,不深究场景类产品的开发,另一类则在数据积累的基础上,效仿行业知识图谱厂商做场景的深度挖掘与沉淀,以期实现数据治理能力与场景产品化能力的双融合。行业知识图谱侧,知识图谱作为“行业专家”这一概念的火热潮逐渐退却,参与者在看到B端广大市场空间的同时,也深刻意识到搭建高业务价值、强专业性知识图谱的不易,因而招纳更多的业务端人才,弥补业务短板,促成技术与业务的双融合。
产业总规模
金融、公安为市场主要拉力
随着信息化与数字化建设的展开与NLP技术的进步,知识图谱不再局限于网络百科式的搜索,其衍生出了互联网内容与社交、大数据知识图谱与行业知识图谱等多种产品类型,产品专业化与场景化的趋势日渐明显,行业知识图谱已经成为市场开拓重点。金融与公安两大行业的知识图谱占比较高且增长速度较快,其业务与知识图谱可密切结合,具备建设意愿与资金投入,因而成为了市场规模的主要拉力。据艾瑞统计测算,在年的行业市场结构中,金融与公安的市场份额合计共占总市场的38.2%。未来,随着*务数字化建设的完善,*务对知识图谱的业务需求会逐渐唤醒,成为未来市场的拉力之一。从市场整体来看,年中国知识图谱核心市场规模为亿元,到年,核心市场规模可突破亿元,-年CAGR=22.5%。
行业细分赛道表现总览
互联网最成熟,金融为兴起标杆,*务与工业长路漫漫
各行业赛道知识图谱产业情况可从技术、业务、执行三大维度进行评价和对比。互联网是知识图谱产业最成熟的赛道,一般提供轻量级的应用服务,开发难度较低。相比之下,其他行业的知识图谱产业仍处于建设期,且以金融的表现为标杆。*务、工业都有巨大的数据量,但业务专家储备密集度、业务场景明确程度、客户配合度的评价偏低,需要较为漫长的磨合过程。尽管医疗领域的专家储备与业务场景明确度表现较好,医院资源利益不统一,文本数据理解难度大,其产业发展远不如人们所希冀的高专家水准。
核心产业图谱
?互联网
行业需求痛点分析
信息碎片化与非结构化突出,产品需持续迭代满足用户需求
一、互联网信息碎片化与非结构化的处理需求
互联网的海量信息带有碎片化与非架构化特征。新兴互联网应用的蓬勃发展,让完整信息被分类分解为信息片段,信息被大量简化,从而导致信息本身不全面、内在逻辑不完整。同时,文本、图片、各类报表和音频、视频、HTML等非结构化数据广泛存在于互联网中。互联网企业需要在现有的存量业务中,收集碎片化信息,处理非结构化数据,挖掘信息间的潜在联系,还原完整的、有价值的信息。然而,信息的关联关系挖掘是一项工作量巨大且复杂的工程。
二、互联网产品迭代与发展的需求
互联网产品的生命周期路径规划需求:任何的互联网产品都会经历探索期、成长期、成熟期、衰退期四大阶段,每一阶段各有其痛点。探索期的产品在设计规范与方向上缺乏可参考的产品,难以找到产品的设计方向;成长期的产品往往同质化严重,难以找到产品的创新点,并在竞品竞争中取胜;成熟期的产品基本定型,需要在产品细节上做设计与把控。针对每一阶段的痛点,都需要做好路径规划,持续进行产品迭代,解决产品所处阶段的核心问题。产品迭代设计规划需要依赖合理可靠的决策依据,而决策依据源自将已经结构化的商品表现数据、行业信息等构建成网络,发现数据之间的潜在关联。
以存量产品迭代为例进行解释:某APP起初以本地生活服务为主打功能,但该APP已经较为成熟,同时期还存在一些竞争对手。产品设计师考虑在现有功能上叠加旅游服务与电商服务,以增加产品的差异化程度。
三、商品与用户信息的精准化、个性化表达需求
商品方面:市场管理差异导致的商品信息差,线上商品存在多种表达方式,标准化程度不足;线上商品缺乏个性化设计与表达,对用户引导不到位,难以激发用户兴趣,不利于用户做出消费决策。
用户方面:网页端与移动端都会留下用户的行为数据痕迹,用户的消费观念隐藏在这些数据以及数据间的关联关系中。若要为用户精准推荐个性化内容,将用户切实转化为消费者,需要对用户的数据进行挖掘,刻画用户画像。
痛点下的知识图谱应用
以智能推荐与辅助决策为核心,满足用户与企业决策者需求
一、碎片化信息聚合,以网络搜索场景为例
预期目标:推荐与检索词条相关的实体,将碎片化信息聚合为不同维度呈现。
核心原理:通过网络信息与数据搭建通用知识库,将具有相关性的信息联系起来,将完整丰富的信息推荐给用户。
核心价值点:盘活长尾冷门的实体,实现碎片化信息聚合,还原完整信息,补充用户未知知识(尤其是时效性与新奇知识),激发用户搜索兴趣。
对应应用:百度百科、搜狗百科、百科、
转载请注明:http://www.0431gb208.com/sjszlfa/4135.html