Cichlid:构建在Spark之上的高效大规模RDFS/OWL推理系统

Cichlid
简介:

Cichlid构建在Spark之上,是一个分布式的RDFS/OWL推理系统,相对于现有的基于MapReduce或者P2P自组织网络的分布式推理系统,Cichlid实现了更好的的执行效率和可扩展性。Cichlid主要贡献有三点:

  • 提出了基于Spark RDD并行编程模型的RDFS推理算法。该算法围绕数据划分模型、规则执行次序和冗余数据消除三方面对RDFS推理进行了重要优化
  • 提出了基于Spark RDD并行编程模型的OWL Horst规则集推理算法。该算法对大规模数据连接、传递规则计算和等价关系计算这三个严重消耗性能的方面进行了重要改进
  • 对Spark RDD模型提出了非堆存储机制,从系统层面优化了大规模数据集下RDD模型的性能表现。该非堆存储机制已经被Apache Spark 1.0 接受

Cichlid在合成数据集和真实数据集上都比目前已知的最快的RDFS/OWL推理系统更高效,平均要快8倍以上。

了解更详细的信息和动态,请点击:https://github.com/PasaLab/cichlid.