客户案例-某商业银行企业实体多源融合规范项目

某商业银行外购多家企业实体数据，使用过程种发现大量实体名称重复，名称变更，描述有细微差异等，这样在使用公司信息的时候就有大量的确认工作，甚至都无法确定用哪条数据。主要表现如下：

代表工商信息的关键属性提取困难

区分实体的核心数据缺失严重

同时将公司名与三证信息作为实体的识别条件，条件过于严苛，运算复杂

不具备实体传递和合并的能力

采石矶针对多源数据直接进行规则自动发现，输出三证规则，为关键属性提取提供了强有力参考，同时采用机器学习对公司名进行匹配作为辅助实体规则，逐步扩大数据覆盖率；同时支持设置规则的优先级，社会统一信用代码优先级最高，组织机构代码其次，工商注册码第三等逐步缩小数据的计算范围，达到精准识别实体。

手写SQL语句表达三证规则

公司名称匹配，但是没有机器学习的精确匹配丢解严重

已知的三证规则无法设置优先级

一直运行在全量数据

自动发现三证规则，降低手工设计规则的难度

人工辅助设计规则作为补充，机器学习加持

根据业务定义规则的优先级

逐步迭代递减运行，缩小数据范围，机器算力要求低

工商实体数据从39.6万合并到22.6万，实体合并的准确率为98.86%；原来只能合并到35万+

通过采石矶自动发现规则+人工辅助设计规则的方式，数据覆盖率高达99%；原来只能覆盖到80%左右

人工确认的工作量大幅度减少；原来39.6万的数据人工确认约2天，现在只需要0.5天即可确认完毕