Skip to content

创新原创理论

大数据质量保证模型与方法
研究简介
低质量的数据会导致大量的财产和业务损失。数据质量管理是通过发掘数据语义规则,自动定位和修复数据中的错误,以提高数据可用性。我们依据原创的数据质量理论,开发以自动管理为特征的数据可用性平台,形成数据与平台双向互动正循环,促进各行业对数据生产要素的高质量应用,引领全球数据可用性发展。
研究领域
针对数据质量的五个关键问题,即数据的一致性、精确性、完整性、时效性和实体的同一性,打造一个结合逻辑规则和机器学习的新型数据质量模型,数据规则自动挖掘算法,推理系统。
逻辑+AI
研究简介
机器学习方法广泛应用于大数据分析领域。学术界和工业界广泛认为当前的机器学习系统几乎完全以统计学或盲模型的方式运行,结果背后隐藏的因果逻辑是一个黑盒,限制了机器学习的应用。我们正在从结构性的因果推理研究角度切入,用机器学习提高应用准确性,用规则保证结果可解释性。同时,我们提出一个结合机器学习模型的新型规则系统,支持模型的即插即用,能够处理数据中潜在的语义关联关系。
研究领域
基于关系表和图数据的结构建立机器学习输入和输出之间的逻辑关系;基于图数据的层次、属性、类别等详尽的拓扑结构和关联关系,研究如何有效地揭示机器学习在自然语言处理、智能问答、语义模型分析等领域的推理逻辑,从而让研究者进行定向优化,进一步提升机器学习的性能和扩展其应用范围;研究逻辑和机器学习模型结合的新型规则系统,保持数据之间的逻辑推理关系的同时利用机器学习模型增强语义表达能力,真正做到模型和逻辑的统一。该规则系统经常被用在数据质量和关联分析等领域。
并行可扩展理论
研究简介
分布式计算已成为大数据计算的重要模式。相较而言,单机计算难以克服大数据带来的高计算复杂性;分布式计算也会因数据之间的交互性而增加并行计算资源之间的通讯开销,大数据计算效率反而降低。为了平衡计算资源与效率之间的矛盾问题,我们正在研究用一种新的方式来降低分布式计算所造成的资源总开销(计算时间与通讯时间)。
研究领域
我们正在尝试针对不同计算问题,建立不同复杂性的并行可扩展性模型;找到判定和识别相同复杂性的并行可扩展性问题的方法;研究各种计算问题的并行可扩展算法的设计方法。我们希望在提升计算性能的同时,能提供权衡多种要素关系的综合性方法。
荣誉奖项
数据质量管理平台基础能力 专项评测证书
北京市大数据技能大赛数据 治理赛道一等奖
大数据技术标准推进委员会 成员单位
ICDE
2007最佳论文奖
VLDB
2010最佳论文奖

论文发表

Splitting Tuples of Mismatched Entities

ACM SIGMOD Conference on Management of Data (SIGMOD), 2024.

Wenfei Fan, Ziyan Han, Weilong Ren, Ding Wang, Yaoshu Wang, Min Xie, and Mengyi Yan.

查看详情

Discovering Top-k Rules using Subjective and Objective Criteria

ACM SIGMOD Conference on Management of Data (SIGMOD), 2023.

Wenfei Fan, Ziyan Han, Yaoshu Wang, and Min Xie.

查看详情

Learning and Deducing Temporal Orders

The 49th International Conference on Very Large Data Bases (VLDB), 2023.

Wenfei Fan, Resul Tugay, Yaoshu Wang, Min Xie, and Muhammad Asif Ali.

查看详情

Parallel Rule Discovery from Large Datasets by Sampling

ACM SIGMOD Conference on Management of Data (SIGMOD), 2022.

Wenfei Fan, Ziyan Han, Yaoshu Wang, and Min Xie

查看详情