Skip to content
多源数据实体解析
解决方案

方案概述

多源数据是指来自不同数据源的数据,这些数据具有不同的格式、语义和结构。在数据处理过程中,多源数据的融合是数据质量方向的一个挑战,并且在后续的数据分析与应用过程中容易产生数据准确性,同一性,完整性等问题。采石矶系统的实体解析与增强功能就是为了解决这些问题,该功能实现了实体分组,实体匹配,实体聚类,最优记录和主数据管理,融合了时序最优规则,基于用户定义的规则可信度/优先级,与深算院的先验知识积累进行分析,通过多次实体合并与传递可以达到更准确地解析实体的效果,并针对同一实体数据的不同取值,推荐出最优的取值。

业务挑战

数据质量问题
多源数据的实体解析需要处理大量的数据,而这些数据往往存在质量问题,如缺失值、错误值、重复值等,这些问题会影响实体解析的准确性和效率。
实体消歧问题
多源数据的实体解析需要对文本中的实体进行消歧,即确定文本中的实体是否指代同一实体,这是一个复杂的问题,需要考虑多种因素,如上下文、语义、实体属性等。
算法效率问题
传统的实体解析算法往往效率较低,无法满足多源数据的实体解析所涉及的大数据量处理的需求。

方案架构

方案优势

数据质量修复
根据自动发现的实体增强规则和具有理论保证的数据修复算法,迭代地发现数据中的错误数据,并完成有正确性保证的修复,提升数据质量。
输出最佳的实体数据
使用逻辑规则结合自然语言处理技术,准确解析文本实体,解决语义多样性问题,以及融入时序规则、用户自定义最优规则等特性功能,即可规定数据最长/数据最短/数据更新时间为最新等不同维度作为最佳的实体数据,在实体解析分类基础上输出最优的实体记录。
高准确性和高效性
基于DBLP数据集的对比实验,对比业界标杆产品新增实体增强规则与正确性保证的数据修复,总体执行性能快382%,实体识别精准率提升56%,发现重复实体数多16倍。