Skip to content

现状问题

某商业银行外购多家企业实体数据,使用过程种发现大量实体名称重复,名称变更,描述有细微差异等,这样在使用公司信息的时候就有大量的确认工作,甚至都无法确定用哪条数据。主要表现如下:

代表工商信息的关键属性提取困难
区分实体的核心数据缺失严重
同时将公司名与三证信息作为实体的识别条件,条件过于严苛,运算复杂
不具备实体传递和合并的能力

项目措施及前后对比

采石矶针对多源数据直接进行规则自动发现,输出三证规则,为关键属性提取提供了强有力参考,同时采用机器学习对公司名进行匹配作为辅助实体规则,逐步扩大数据覆盖率;同时支持设置规则的优先级,社会统一信用代码优先级最高,组织机构代码其次,工商注册码第三等逐步缩小数据的计算范围,达到精准识别实体。

手写SQL语句表达三证规则

公司名称匹配,但是没有机器学习的精确匹配丢解严重

已知的三证规则无法设置优先级

一直运行在全量数据

自动发现三证规则,降低手工设计规则的难度

人工辅助设计规则作为补充,机器学习加持

根据业务定义规则的优先级

逐步迭代递减运行,缩小数据范围,机器算力要求低

项目成果

工商实体数据从39.6万合并到22.6万,实体合并的准确率为98.86%;原来只能合并到35万+

通过采石矶自动发现规则+人工辅助设计规则的方式,数据覆盖率高达99%;原来只能覆盖到80%左右

人工确认的工作量大幅度减少;原来39.6万的数据人工确认约2天,现在只需要0.5天即可确认完毕