数据来自不同来源,机构名称多个别称、简称
数据残缺、数据重复
全量数据匹配复杂度高
无法自动产出统计结果

某科研类研究院主要工作为提供自然科学、边缘交叉科学和高技术领域科研文献的信息保障及战略情报研究服务。其数据来自全球科研院所、高等院校、期刊等。不同来源的数据存在多种别称、简称,导致数据存在一致性、冗余等问题,该机构需要将描述不同但实际表达同一个实体的数据快速识别检索,当前的方案为人工查询识别的方式,效率差、准确率低,如何快速高效地解决大数据中的实体唯一性问题是当前该机构的一大痛点。
采石矶系统通过在数据中基于机器学习模式,自动根据数据特征进行匹配过滤,能够从语义上去判断实体,自动地发现实体唯一性规则,规则有机结合了相似度算法和机器学习模型,且提供快速、便捷的人机交互,对识别出来的实体主体展现清楚明了;减少了人工操作,大大提高了数据处理的效率。
依赖人工设想规则,准确度低
数据杂乱无章 无法通过人工归类识别
提供快速、便捷的人机交互,对识别出的实体主体展现清楚明了
自动发现同一实体,自动聚类
450万机构表合并重复条目45万,自动填补数据缺失内容,准确率95.4%
百万级数据在分级单位内完成(模型运算效率提高100倍)
实体检索速度提高50%以上