代表工商信息的关键属性提取困难
区分实体的核心数据缺失严重
同时将公司名与三证信息作为实体的识别条件,条件过于严苛,运算复杂
不具备实体传递和合并的能力

某商业银行外购多家企业实体数据,使用过程种发现大量实体名称重复,名称变更,描述有细微差异等,这样在使用公司信息的时候就有大量的确认工作,甚至都无法确定用哪条数据。主要表现如下:
采石矶针对多源数据直接进行规则自动发现,输出三证规则,为关键属性提取提供了强有力参考,同时采用机器学习对公司名进行匹配作为辅助实体规则,逐步扩大数据覆盖率;同时支持设置规则的优先级,社会统一信用代码优先级最高,组织机构代码其次,工商注册码第三等逐步缩小数据的计算范围,达到精准识别实体。
手写SQL语句表达三证规则
公司名称匹配,但是没有机器学习的精确匹配丢解严重
已知的三证规则无法设置优先级
一直运行在全量数据
自动发现三证规则,降低手工设计规则的难度
人工辅助设计规则作为补充,机器学习加持
根据业务定义规则的优先级
逐步迭代递减运行,缩小数据范围,机器算力要求低
工商实体数据从39.6万合并到22.6万,实体合并的准确率为98.86%;原来只能合并到35万+
通过采石矶自动发现规则+人工辅助设计规则的方式,数据覆盖率高达99%;原来只能覆盖到80%左右
人工确认的工作量大幅度减少;原来39.6万的数据人工确认约2天,现在只需要0.5天即可确认完毕