论文目录与摘要

论文目录和摘要信息

Session A1:大数据存储管理与处理

地点:昆明多功能A               时间:8:30-10:00                   主持人:肖利民

题目:基于数据通道的非结构化数据多存储系统
作者:蒋静远鲁伟明王耀光楼仁杰
单位:浙江大学计算机科学与技术学院
摘要:
面对大数据大容量、高速率和多样性的特点,传统关系型数据库不再能满足处理海量非结构化数据的需求,越来越多的数据中心开始使用以NoSQL数据库为主,多个数据存储组件相互协同的多存储系统。为了发挥多存储系统中各个存储组件的功能,数据需要在多个存储组件之间进行同步,以ETL和客户端多路写为代表的传统数据同步方式不能满足以NoSQL为存储核心的多存储系统。本文提出的非结构化数据多存储系统以HBase为主数据库,使用Coprocessor索引信息记录和WAL日志文件解析两种方式捕获HBase中的数据变更,并将以此方法实现的变更捕获组件接入DataBus实现数据通道,构建以数据库变更为同步手段的非结构化数据多存储系统。实验结果表明,该系统具有较高的数据变更捕获性能和良好的可扩展能力,为非结构化数据多存储架构提供了一种可行的解决方案。

题目:大数据集成中确定数据准确属性值的WR方法
作者:周宁南张孝王珊
单位:数据工程与知识工程教育部重点实验室(中国人民大学)
摘要:
大数据集成是提供高质量数据进行决策的基础。集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值。最新的R-topK方法在数据上实施人工设计的规则确定属性值间的准确程度,得到了相对准确的属性值。然而这种方法在处理多个可能的准确值或设计的规则存在冲突等情况下需要较多人工交互。为此本文提出基于权重规则的WR(Weighted-Rule)方法确定大数据集成中数据的准确属性值。该方法每对属性值间准确程度的判断规则上扩充了权重,在准确值发生冲突时避免了R-topK方法中人工交互干预。本文基于追逐过程设计了约束条件推理算法,并证明它能够在O(n2)内推导出每对属性值间的带权重的准确程度,形成推导准确属性值的约束条件。面对约束条件中可能的冲突,本文提出了目标求解算法,在O(n)时间内从所有属性值组合中搜索最可能的准确属性值。我们在真实和合成数据集中进行了充分的实验,验证了WR方法的效果和效率。WR方法较R-topK方法在性能上提高了3-15倍,在效果上提升7%-80%

题目:面向大数据的分布式流处理技术综述
作者:张鹏李鹏霄任彦杨嵘林海伦刘庆云
单位:国家计算机网络应急技术处理协调中心
摘要:
随着大数据的到来,数据流处理技术又成为了新的研究热点。为此本文回顾了近期提出的面向大数据的流处理技术的现状,并且从流处理模型上对这些技术进行了划分,重点分析了面向大数据的并行分布式的流处理模型的设计目标和架构。同时,重点讨论了并行分布式流处理模型的关键技术以及未来技术的展望。

题目:一种大规模时空数据处理与可视化平台
作者:郭旦怀周园春黎建辉
单位:中国科学院计算机网络信息中心科学数据中心
摘要:
当前大多数时空数据处理与可视化工具在数据规模增大时,不能够对数据进行快速的处理与可视化。为解决该问题,本文通过对任务模型、数据模型及可视映射策略的重新定义,给出一种大规模时空数据处理与可视化平台。平台能够支持多种不同类型的时空数据,通过分布式的数据存储、数据重新组织、分布式检索、空间索引、分段预取等技术,能够实现大规模数据的快速处理与可视化。

 

题目:Hadoop环境下三维模型的存储及形状分布特征提取
作者:李海生赖龙蔡强毛典辉陈谊
单位:北京工商大学计算机与信息工程学院
摘要:
随着三维模型数量爆炸式的增长,如何有效地存储和管理海量的三维模型文件并对其进行高效的处理,是三维模型检索领域亟待解决的问题。本文首先基于模型文件名的概念相似度对模型文件分类合并,存入Hadoop集群的分布式文件系统(HDFS)。通过引入拓扑结构一致性因子,设计了三维模型完整性函数,实现了Hadoop环境下对三维模型形状分布的MapReduce处理,并根据分布式计算的特点进行了性能优化。以中国台湾大学的三维模型数据库作为测试集在Hadoop集群上进行实验,验证了本文算法的有效性。

题目:基于数据位图的滑动分块算法
作者:雪峰孙瑞志张永瀚聂娟
单位:中国农业大学农业部农业信息获取技术重点实验室
摘要:
网络中相似的数据文件进行同步与存储的过程中,对数据进行分块,是检测数据重复的重要步骤之一,在有效的对数据分块的基础上才能更准确的定位数据间的差异部分。本文就数据分块方法予以分析总结,在滑动分块算法的基础上,重新将数据文件组织成类似位图的排列形式,对数据位图以列向读取数据信息,形成新的数据分块,并计算列向读取数据的分块指纹信息,以列向数据指纹为补充校正滑动分块算法定位差异数据的能力的不足之处,从而获得更精确的数据差异信息。经实验证明,本方法在同源文件的数据重复检测中效果好于相同条件下的滑动分块方法。

Session B1:数据质量

地点:昆明多功能A               时间:10:15-12:00          主持人:曹建军

题目:基于任务合并的并行大数据清洗过程优化

作者:杨东华李宁宁王宏志李建中高宏
单位:哈尔滨工业大学计算机科学与技术学院
摘要:
数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗。MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导致性能的降低。因此本文的目的是对并行数据清洗过程进行优化从而提高效率。通过研究,我们发现数据清洗中一些任务往往都运行在同一输入文件上或者利用同样的运算结果,基于该发现本文提出了一种新的优化技术——基于任务合并的优化技术。针对冗余计算和利用同一输入文件的简单计算进行合并,通过这种合并可以减少MapReduce的轮数从而减少系统运行的时间,最终达到系统优化的目标。本文针对数据清洗过程中多个复杂的模块进行了优化,具体来说分别对实体识别模块、不一致数据修复模块和缺失值填充模块进行了优化。实验结果表明,本文提出的策略可以有效提高数据清洗的效率。

题目:大数据上基于Hadoop的不一致数据检测与修复算法
作者:张安珍门雪莹王宏志李建中高宏
单位:哈尔滨工业大学计算机科学与技术学院
摘要:
随着现代社会互联网的普及应用,产生的海量数据普遍存在质量问题。本文针对数据质量中不一致性问题进行研究,设计并实现了基于Hadoop并行平台的不一致数据检测与修复算法。采用条件函数依赖作为约束规则检测不一致数据集并求解修复方案,使得修复结果满足数据一致性要求,并给出修复结果的确定性概率。最后通过实验证明本算法较已有的单机算法有更好的修复效果。

题目:面向马尔可夫特征的数据质量控制模型
作者:周金陵刁兴春周星曹建军
单位:解放军理工大学指挥信息系统学院
摘要:
为了在进行数据质量控制时,考虑数据的具体特征以提高数据质量,分析了当前基于贝叶斯网络进行数据质量控制的模型、改进模型及其效果。针对字段之间存在"隐马尔可夫"关系的数据,提出了一种面向马尔可夫特征的数据质量控制模型,利用贝叶斯网络结构算法确定字段之间是否存在的"空间"上的关系,并且利用马尔可夫模型的Baum-Welch算法学习字段之间的生成概率矩阵(反映字段之间的依赖关系)和记录之间转移概率矩阵(反映记录之间的时间依赖关系),作为推理的依据。仿真实验表明,将"空间"和"时间"上的依赖关系有机结合起来预测或校验数据,对于存在"隐马尔可夫"关系的数据质量控制的提升效果显著,验证了模型的有效性。

题目:对非随机缺失中的缺失依赖关系研究
作者:郑奇斌刁兴春曹建军
单位:解放军理工大学指挥信息系统学院
摘要:
数据缺失是一种十分重要而又很常见的数据质量问题。对缺失数据的常见处理方法为估计缺失值或者直接删除缺失记录。这两种方法都只用到了未缺失数据中的信息,而隐含在缺失记录中的信息则被舍弃了。在非随机缺失中各个缺失属性并不是独立的,其中存在着依赖关系。本文使用关联规则挖掘的技术,主要是关联规则挖掘,从发生非随机缺失的数据集中发现属性间的缺失依赖关系。利用发现的依赖关系,可以对数据分析或者信息采集改进提供帮助。通过在一个真实数据集上的实验,证明本文的方法可以有效的发现缺失中的依赖关系。

题目:一种含缺失数据的记录逻辑检测方法
作者:高科刁兴春曹建军
单位:解放军理工大学指挥信息系统学院
摘要:
针对统计数据集中属性值缺失普遍存在的情况,为了更加准确地进行记录的逻辑性检查,在找出问题数据的基础上尽可能多地保留数据的有效信息,提出先利用Fellegi-Holt算法对规则进行推演,再进行数据逻辑检测的方法。分析了算法的基本原理,结合具体数据实例进行规则推演及检测分析,从召回率和准确率两个指标上进一步比较了采用不同方法对问题数据进行检测的效果。实验结果表明,此方法能发现隐含规则,进一步提高问题数据的检测效果。

题目:基于Hadoop的电网数据质量校验方法与验证系统
作者:张志亮孙煜华陈承志龙庆麟梁国辉顾荣杨滨诚黄宜华
单位:广州供电局/江苏省软件新技术与产业化协同创新中心
摘要:
在诸多电网数据处理应用中,电网数据质量监测是电网大数据处理业务中最重要的一个环节。随着电网数据规模和数据质量校验规则数量和复杂度的不断增大,目前现有的基于传统数据库系统和计算平台的数据质量校验系统的处理能力已经出现严重的瓶颈,难以快速完成数据质量的监测和校验,且系统难以扩展,越来越难以满足日常的生产管理和经营决策的需求。大数据技术为解决电网大数据处理提供了良好的技术手段和支撑平台。为此,本文提出了一种基于大数据的电网数据质量校验解决方案,研究设计了基于Hadoop平台的分布式数据存储管理和并行化校验规则执行技术,选择批量和增量数据质量校验典型场景,进行了验证性研究,设计实现了针对数据校验的索引存储机制,对校验规则相关的属性建立快速索引,并进一步设计实现了基于HBaseMapReduce的并行化校验规则执行算法,使得数据质量校验的处理性能得到显著提升。在此基础上,基于验证性数据集和校验规则实现了一个验证性系统,实验结果表明,所提出的技术方法可以有效地提升数据质量校验处理性能,可满足实时/准实时电网数据数据校验需求,并且提供了一种具有良好可扩展性的系统解决方案。

题目:利用AQL的逐批海洋大数据质量检验模型
作者:黄冬梅周雪楠王振华
单位:上海海洋大学信息学院
摘要:
海洋数据的质量是数据处理和应用的基础,如何准确高效的评价海洋数据的质量,是制约其精确有效应用的关键问题之一。质量检验方案主要涉及三个参数,即批量、样本量和接收数,而现有的质量检验方案大多集中于样本量与接收数之间的关系推导,忽略了数据批量对于质量检验方案的影响。此类方案不适用于批量大小不固定的海洋大数据的质量检验。针对该问题,通过基于接收质量限(AcceptanceQualityLimitAQL),提出了符合超几何分布的海洋大数据优化质量检验模型,建立了批量和样本量之间的联系,平衡了数据生产方和使用方对于数据精确度的需求。最后,通过与传统质量检验模型的比较,验证了其对海洋大数据质量检验的有效性。

 

Session A2:数据分析与挖掘

地点:昆明多功能B                时间:08:30-10:00          主持人:王莉

题目:利用社交关系的实值条件受限玻尔兹曼机协同过滤推荐算法
作者:何洁月马贝
单位:东南大学计算机科学与工程学院
摘要:
利用受限玻尔兹曼机(RestrictedBoltzmannMachineRBM)解决推荐问题已成为一个很有意义的研究方向。目前用于推荐的RBM模型中使用的仅仅是用户评分数据,但用户评分数据存在着严重的数据稀疏性问题。随着互联网对人们生活的不断渗透,社交网络已经成为人们生活中不可缺少的一部分,利用社交网络中的好友信任关系,有助于缓解评分数据的稀疏性问题,提高推荐系统的性能。因此本文提出基于实值的状态玻尔兹曼机(Real-ValuedConditionalRestrictedBoltzmannMachineR_CRBM)模型此模型不需要将评分数据转化为向量单元将数据中潜在的评分/未评分信息应用到模型训练过程中;并且将最近信任好友关系应用到R_CRBM模型推荐过程中。在百度数据集和Epinions数据集上的实验结果表明R_CRBM模型和引入的最近信任好友关系均有助于提高推荐系统的预测精度。

题目:基于移动网络流量日志的城市空间行为分析
作者:强思维陈夏明姜开达金耀辉
单位:上海交通大学,区域光纤通信网与新型光通信系统国家重点实验室
摘要:
城市的空间组织和居民行为研究是城市地理学研究的重点,随着信息技术的快速发展,居民的时空行为对城市空间的组织和结构的影响呈现出日益增加的趋势,因此,对城市空间以及居民时空行为的深入分析具有很高的研究价值。本文通过采集杭州市区移动3G网络流量日志,首先采用空间点模式的分析方法研究了城市居民的聚集模式,居民移动的距离、方向等方面的特征,之后采用网格的方法对城市空间进行分块,并以区块为主体,研究了热点区块出现的时空点,区块人流的更迭速率,工作日人流的潮汐效应,提出了区块差异指数的概念,并利用其对区块进行聚类,分析了区块间的相关性和区块间距离之间的关系。由于本文研究的研究数据来源于移动3G网络流量日志,因此具有覆盖面广、数据量大等特点,非常适合从大时空尺度层面研究居民和城市空间行为。

题目:一种对数据集稀疏度不敏感的协同推荐新方法
作者:蔡国永吕瑞
单位:桂林电子科技大学广西可信软件重点实验室
摘要:
在推荐系统领域中,针对数据集稀疏性问题的研究大都建立在静态数据集的基础上,而实际工业应用中的数据集则往往是动态的并且具有以下两个明显的特征:1)User-Item矩阵维度逐渐增大;2)稀疏程度不断增加.因此,传统的依赖固定稀疏程度数据集的推荐算法的准确率则会随着数据集稀疏度的增加而下降.基于以上考虑,针对稀疏度动态变化的工业数据集的特征,提出一种准确率高而且对数据集稀疏程度敏感性较低的方法.该方法结合了少量的标签信息并利用了因子分析的方法,通过建立一种特殊的因子模型从而为用户构建一个新的User-Factor向量(用户-因子向量),并基于新的User-Factor向量为目标用户进行"邻居发现"和评分预测.最后,我们通过大量对比实验证明了本文中的方法在处理工业应用中的数据集时算法总是能够保持较高且稳定的准确率.

题目:基于Hadoop的领域术语抽取研究
作者:杜丽萍李晓戈周元哲邵春昌
单位:西安邮电大学计算机学院/中央民族大学理学院
摘要:
传统单机领域术语抽取系统的扩展性已经成为基于大规模语料库进行领域术语抽取的瓶颈。对此提出了一种基于Hadoop分布式平台的统计与规则相结合的无监督的专业术语抽取算法,该算法首先利用PMIPoint-wiseMutualInformation)的改进方法确定2元待扩展种子,其次采用左右扩展的方式逐字地把2元待扩展种子扩展至2-n元候选术语(n表示抽取术语的最大长度,可根据需要指定),最后利用两个基本规则过滤候选术语集合。实验结果表明当PMI改进方法的参数取值大于等于3时可解决PMI方法的缺点、基于大规模语料库进行专业术语抽取的必要性和基于并行算法的高效性。

题目:一种融合异构信息网络和评分矩阵的推荐新算法
作者:张邦佐桂欣何涛孙焕垚杨晟雨韩宇茹
单位:东北师范大学计算机科学与信息技术学院
摘要:
在当今的大数据时代,推荐系统是解决信息超载的有效手段。异构信息网络为推荐系统更多地融合用户与项目信息提供了机遇,而传统的协同过滤推荐系统仅仅使用用户-项目评分矩阵,为了结合二者的优点,提出了一个融合它们的新的解决方案。首先通过对推荐系统中的用户属性和项目属性建立异构信息网络,其次使用基于元路径的相似度计算方法分别计算用户与项目的相似度矩阵,然后使用本文提出的三种将相似度矩阵与用户-项目评分矩阵融合方法,最后采用传统的基于矩阵分解的推荐技术进行预测及结果合并。在MovieLens100K这一国际标准数据集上以及通过IMDB对电影属性进行扩展后,通过实验验证了使用异构信息网络更多地引入用户与项目属性信息以及融合评分矩阵可以有效地提高推荐精度。

题目:基于广域分布时空轨迹大数据的群体行为模式挖掘方法
作者:杨杰李小平陈湉
单位:东南大学计算机科学与工程学院
摘要:
针对时空轨迹大数据广域网分布存储条件下的群体行为模式挖掘问题,本文基于MapReduceACO(AntColonyOptimization)算法提出可在广域网环境分布并行增量执行的DPIADistributed&Parallel&IncrementalACO)聚类方法。该方法聚类过程分为历史全量阶段和若干周期增量阶段分段持续执行,通过每个周期的增量数据聚类持续修正已有聚类结果,通过MapReduce实现每个阶段聚类运算的广域网分布并行执行,避免时空轨迹大数据的重复聚类运算和拷贝迁移,大大提升运算效率,保持聚类结果准确性。通过江苏道路交通监控系统的实际数据比较该方法与已有基于MapReduce的并行ACO方法,实验结果表明,DPIA方法具有更好的聚类特性。

Session B2:社会网络分析与知识图谱

地点:昆明多功能B                时间:10:15-12:00          主持人:何洁月

题目:一种面向大规模社会信息网络的多层社区发现算法
作者:康颖于博林政周江王伟平孟丹
单位:中国科学院信息工程研究所
摘要:
社区发现旨在挖掘社会信息网络的社区结构,是社会计算及其相关研究的基础。随着交互式社会信息网络规模的快速增长,传统的社区发现算法难以满足大规模网络的可扩展分析需求。多层社区发现算法如PMetisGraclus等虽然可以分析包含数百万节点规模的网络,但是小于1/2的粗化缩减比率以及社会信息网络的律分布特性极大地制约着该类算法的性能优势。本文提出了一种基于三角形内点同一社区性粗化策略的多层社区发现算法TMLCDTMLCD不仅以大于1/2的粗化缩减比率加快了大规模社会信息网络的粗化过程,而且从基本拓扑结构上保持了初始网络的社区效应,提高了社区发现精度。基于真实网络如YoutubeOrkut等的实验结果表明,TMLCD的计算精度、内存占用以及运行时间均优于目前典型的多层社区发现算法,适用于富含三角形的社会信息网络分析。

题目:一种大规模图数据处理关键技术的评估模型
作者:高赟周薇韩冀中孟丹
单位:中国科学院信息工程研究所信息智能处理技术研究室
摘要:
随着社交网络、知识图谱等图应用的不断发展,对亿万个顶点级别大规模图的处理能力的需求愈加迫切,这是当前海量数据处理领域的研究和开发热点。但是,目前并没有一个全面的评估模型来衡量和比较当前主流框架的适用场景及利弊。针对以上问题,本文全面分析和总结了大规模图数据处理的四个关键问题,包括图数据分布策略、磁盘数据组织策略、迭代编程模型、消息模型与同步策略等。结合主流的大规模图处理框架,建立了评估模型定量地分析这些关键问题对大规模图数据处理的影响,对未来图计算框架的设计具有指导意义。最后通过全面的实验评测证实了本文提出的评估模型的有效性,在我们的测试结果中发现了如下不同寻常的现象:与图数据边分割相比,通常认为更快的顶点分割方法(如PowerGraph)虽然在邻域算法上运行时间确实能够达到边分割的50%左右,但是在非邻域算法上时间开销却是边分割的3倍;与同步策略相比,异步策略可以减少约20%30%总计算量,但在稠密图上由于细粒度的锁冲突,其运行时间反而可能达到同步策略的2倍;当数据集达到4千万顶点和13亿条边时,基于磁盘的MapReduce比基于内存的Giraph等框架性能反而更高。

题目:大规模演化知识网络中的关系推断
作者:赵泽亚贾岩涛王元卓小龙程学旗
单位:中国科学院计算技术研究所中国科学院网络数据科学和与技术重点实验室
摘要:
网络大数据时代的到来使得知识网络中时空信息越来越丰富。现有的知识网络描述模型对知识的时空信息的刻画不足。研究证明,利用网络中知识的时空信息以及相关性,能够提高网络中知识间的关系推断的准确率。针对以上问题,我们首先提出了一种包含时空信息的演化知识网络表示模型,然后研究在该网络模型上的关系推断问题,提出了一种基于背包问题的知识间关系推断方法。在多个数据集上的实验证明了所提出的关系推断方法的有效性以及对大规模知识网络的适应性。

题目:社会网络中面向不确定性影响源的影响力传播抑制方法
作者:李劲柳青岳昆蔡莉
单位:云南大学软件学院
摘要:
社会网络中影响力传播的有效抑制是社会网络影响力传播机制研究所关注的问题之一。针对未知影响传播源,或传播源信息具有不确定性的情况,提出面向不确定性影响源的影响力传播抑制问题。首先,作为提高抑制算法效率的有效途径,讨论竞争线性阈值传播模型下,影响源传播能力的近似估计方法,以此为基础,提出有限影响源情况下,期望抑制效果最大化的抑制种子集挖掘算法。其次,对于大尺寸不确定性影响源的情况,为实现算法运行效率和抑制质量之间的有效折衷,提出基于抽样平均近似的期望抑制效果最大化的抑制种子集挖掘算法。最后,在真实的社会网络数据集上,通过实验测试验证了本文所提出方法的有效性。

题目:基于低结构和局部约束矩阵估计的链接预测方法
作者:刘冶印鉴邓泽亚王智圣潘炎
单位:中山大学信息科学与技术学院
摘要:
网络链接预测问题是链接挖掘的一个重要部分,指的是通过已知的网络结构数据预测网络中尚未连接的任意节点间产生链接的可能性。在大数据时代,互联网社会网络和其他复杂网络中的链接预测问题研究成为热门领域。链接预测相关的方法已被广泛地应用于社会网络关系挖掘、个性化推荐和生物制药等领域。在复杂网络的链接预测问题中,通常利用相似性矩阵来表示网络中任意两个节点之间存在链接的可能性,因此相似性矩阵的计算是链接预测中的至关重要的一步。近年来的研究中,大多数方法是基于已知网络中数据的分析,通过网络潜在结构设计机器学习算法构造相似性矩阵。在全局低的网络结构假设下,结合网络中节点特征的局部约束,提出了一种基于数据的链接预测优化算法,并针对复杂网络数据链接预测问题设计了可扩展的分治方法,便于分布式环境中对大规模数据求解。通过在多个真实数据集上的实验和结果分析,提出的基于低结构和局部约束矩阵估计的链接预测分治方法能够取得较好的效果,并对复杂的网络结构数据具有较强的可扩展性。

题目:SFEN-Inf:一种微博信息传播网络推理算法
作者:郑众杰林学练
单位:北京航空航天大学计算机学院
摘要:
在线社交网络的特点之一是信息的快速传播和频繁交互。为了更好的研究社交网络的特性,我们需要知道信息传播网络的结构。然而,信息传播网络通常是潜在的。我们能观察到信息包含的时间戳和文本等内容,却难以直接观测到信息传播网络。因此,如何根据观测到的数据准确地推理出潜在的传播网络结构,即信息传播网络的推理问题,具有重要的研究意义。本文对该问题进行研究,根据信息的时间和文本内容的相似性,建立了信息传播的概率模型,提出了信息传播网络推理算法SFEN-Inf。我们针对典型的微博事件SFEN-Inf算法进行实验分析,并将SFEN-Inf算法与著名的NetInf算法进行比较。实验结果表明,SFEN-Inf算法在传播网络推理效果上提高约2倍,并且算法的时间效率有较明显的提高。

题目:大数据环境下的动态知识网络模型及构建方法
作者:刘剑许洪波唐慧丰程学旗
单位:中国科学院计算技术研究所
摘要:
针对语义知识库构建方式和语义表达模型研究中的不足,在已有工作的基础上,提出一种新的语义知识模型:动态知识网络,在详细阐述模型组成要素的基础上,进一步研究了该模型的知识表示方法。在语义知识模型的指导下,面向开放的网络数据资源,研究了动态知识网络的半自动构建方法,并且以360百科和新闻网页数据为基础进行了实验验证,结果表明所提模型和方法能够有效支持动态知识网络的构建。

Session A3:大数据机器学习算法

地点:昆明多功能C                时间:8:30-10:00            主持人:禹晓辉

题目:面向大数据流的多任务加速在线学习算法
作者:李志杰李元香王峰匡立
单位:武汉大学软件工程国家重点实验室
摘要:
多任务在线学习框架采用直接数据处理的流式计算模式,是大数据流分析很有前途的一种工具。然而目前的多任务在线学习算法收敛率低,仅为O(1/T^(1/2))T为算法迭代次数。提出一种新颖的多任务加速在线学习算法,在保持多任务在线学习快捷计算优势的基础上,达到最优收敛率O(1/T^2)。对多任务权重学习矩阵Wt的迭代邻近解表达式进行了推导,对提出算法的收敛性进行了详细的理论分析。实验表明,提出的多任务加速在线学习算法能够更好地保障大数据流处理的实时性和伸缩性,有较广泛的实际应用价值。

题目:基于非负矩阵分解的大规模异构数据联合聚类
作者:申国伟杨武王巍于淼董国忠
单位:哈尔滨工程大学信息安全研究中心
摘要:
异构信息网络中包含多类实体和关系。随着数据规模增大时,同类实体规模增长不平衡,异构关系数据也变得异常稀疏,导致聚类算法的时间复杂度高、准确率低。针对上述问题,提出了一种基于关联矩阵分解的两阶段联合聚类算法FNMTF-CM。第一阶段抽取规模较小的一类实体中的关联关系构建关联矩阵,通过对称非负矩阵分解得到划分指示矩阵。与原始关系矩阵相比,关联矩阵的稠密度更高,规模更小。第二阶段将划分指示矩阵作为关系矩阵三分解的输入,进而快速求解另一类实体的划分指示矩阵。在标准测试数据集和异构关系数据集上的实验表明,算法准确率和性能整体优于传统的基于非负矩阵分解的联合聚类算法。

题目:基于Spark的大规模文本k-means并行聚类算法
作者:刘鹏滕家雨张国鹏胡延军黄宜华
单位:中国矿业大学物联网(感知矿山)研究中心/南京大学计算机软件新技术国家实验室
摘要:
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。本文研究提出了基于新一代并行计算系统Sparkk-means文本聚类并行化算法,利用RDD编程模型充分满足了k-means频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Sparkk-means文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。

题目:基于受限玻尔兹曼机的链接分类算法
作者:史喜斌吴世伟熊赟
单位:复旦大学计算机科学技术学院
摘要:
链接分类旨在给定社会网络图谱,预测出其中链接的语义类型,如信任关系,同事朋友关系等。已有工作大多关注在特定领域,对特定领域的数据做人工特征工程,这种工作的局限是不容易扩展到其他社会网络中,算法框架缺少扩展性。本文提出了结合矩阵分解和受限玻尔兹曼机的特征构造算法,可以根据网络拓扑自动构造隐式特征用于分类。在合作者网络和Epinions信任网络中进行了实验,算法准确率较人工特征算法有了明显提高。

 

题目:基于滑窗不等长时间序列STS距离的聚类算法
作者:刘琴王恺乐饶卫雄
单位:同济大学软件学院
摘要:
时间序列的聚类算法是分析预测互联网搜索对象搜索指数和社交网络话题热度随时间变化趋势的重要过程,但目前时间序列聚类算法的研究存在两点不足。首先国内外的时间序列聚类的研究都采用等长划分的时间序列,这往往会丢失许多重要特征点,对数据挖掘的结果产生一定负面影响。其次现有工作均直接使用时间序列观测值不能准确的度量时间序列的形状相似度。因此,本文通过标准分数预处理消除时间序列观测值数量级差异影响,并设计基于滑窗等长时间序列STS距离和类k-means聚类算法中心曲线计算算法,最终提出基于滑窗不等长时间序列STS距离的聚类算法,从而解决了等长时间序列聚类问题。本文采集互联网上的真实数据集作为测试样本,进行大量实验。实验结果表明基于滑窗不等长时间序列STS距离的聚类算法在消除时间序列观测值数量级差异影响,并解决了等长时间序列聚类问题的同时,比现有算法取得更优的聚类效果。

题目:一种基于高斯混合模型的不确定数据流聚类方法
作者:曹振丽孙瑞志李勐
单位:农业部农业信息获取技术重点实验室
摘要:
传感器的广泛应用产生了大量的不确定数据流,在聚类应用中,当输入数据为连续型随机变量时,现有基于离散型随机变量的聚类方法无法满足数据流应用在效率和精度上的要求。本文使用高斯混合模型作为不确定数据的基本表示形式,仅需要保存不同组件的描述信息即可,可以更好的利用存储空间,完成对真实情况的逼近,并提出了一种可以发现时间维度上的不确定数据流聚类方法cumicro该算法将时间直接作为数据属性,可直接查询某个时间维度的聚簇,避免了传统基于划分的聚类中较难发现非球状聚簇的问题。通过实验与经典算法umicro进行比较,证明了本文算法的有效性,并分析了不同K值、Tau值下的聚类结果。最后得出结论,原始数据较密集时,相较原有基于离散模型的聚类,该算法具有准确度上的优势。

Session B3:大数据并行化算法

地点:昆明多功能C                时间:10:15-12:00          主持人:于俊清

题目:基于BSP并行计算模型的K-shell算法
作者:王阳吴斌
单位:北京邮电大学,北京市智能通信软件与多媒体重点实验室
摘要:
提出了一种基于BSP模型的并行K-shell算法,算法利用BSP特有的超级步和全局同步机制,将K-shell迭代分解划分为若干超级步,利用通信来交换中间计算结果,节省了MapReduce模型处理迭代计算问题时反复读取磁盘的时间开销。从理论上详细分析了性能影响因素,并在10个大规模公共数据集上验证了算法较好的性能。在节点K-shell值精确计算的基础上,针对所选数据集,分析了大规模图的K-shell值分布近似呈律分布,并且分布曲线的趋势与自身的度分布极其相似。通过进一步对并行K-shell运行时间和最大K-shell值与其他图属性的相关性分析,阐明了影响这两个值的主要因素。

题目:基于MapReduce的多元连接优化方法
作者:李甜甜于戈郭朝鹏宋杰
单位:东北大学软件学院/东北大学信息科学与工程学院
摘要:
多元连接是数据分析最常用的操作之一,MapReduce是广泛用于大规模数据分析处理的编程模型,它给多元连接优化带来新的挑战:传统的优化方法不能简单地适用到MapReduce中;MapReduce连接执行算法尚存优化空间。针对前者,考虑到I/O代价是连接运算的主要代价,本文首先以降低I/O代价为目标提出一种启发式算法确定多元连接执行顺序,并在此基础上进一步优化,最后针对MapReduce设计一种并行执行策略提高多元连接的整体性能。针对后者,考虑到负载均衡能够有效减少MapReduce的"木桶效应",本文通过任务公平分配算法提高连接内部的并行度,并在此基础上给出Reduce任务个数的确定方法。最后,通过实验验证本文提出的执行计划确定方法以及负载均衡算法的优化效果。本研究对大数据环境下MapReduce多元连接的应用具有指导意义,可以优化如OLAP分析中的星型连接,社交网络中社团发现的链式连接等应用的性能。

题目:基于SparkR的分类算法并行化研究
作者:刘志强顾荣袁春风黄宜华
单位:南京大学计算机软件新技术国家重点实验室
摘要:
近几年来,大数据机器学习和数据挖掘的并行化算法研究成为大数据领域一个较为重要的研究热点。早几年国内外研究者和业界比较关注的是在Hadoop平台上的并行化算法设计。然而,HadoopMapReduce平台由于网络和磁盘读写开销大,难以高效地实现需要大量迭代计算的机器学习并行化算法。随着UCBerkeleyAMPLab推出的新一代大数据平台Spark系统的出现和逐步发展成熟,近年来国内外开始关注在Spark平台上如何实现各种机器学习和数据挖掘并行化算法设计。为了方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析,Spark提供了一个称为SparkR的编程接口,使得一般应用领域的数据分析人员可以在R语言的环境里方便地使用Spark的并行化编程接口和强大计算能力。本文基于SparkR设计并实现了多种常用的并行化的机器学习分类算法,包括多项式贝叶斯分类算法,SVM算法和LogisticRegression算法。进一步地,对于SVMLogisticRegression算法,本文在常规的并行化策略的基础之上为了进一步提升训练速度,设计采用了并行化局部优化的迭代计算模式。实验结果表明,本文所设计实现的基于SparkR的并行化分类算法与HadoopMapReduce的方案相比,速度上提升了8倍左右。

题目:基于MapReduce的并行化最小最大模块化支持向量机研究
作者:李云
单位:南京邮电大学计算机学院
摘要:
最小最大模块化支持向量机(M3-SVM)是对大规模数据进行模式分类的有效方法。为了进一步提高M3-SVM算法处理大规模数据的效率。本文基于MapReduce的编程模型实现了M3-SVM的并行化。并行化主要分为两个部分:1、将M3-SVM中的多个任务分解进行并行化;2、将M3-SVM中用来训练基分类器SVM的序列最小优化算法(SMO)进行并行化。在多个现实数据集上的实验结果表明基于MapReduce的并行化最小最大模块化支持向量机算法不仅具有较好的可靠性,而且比传统的最小最大模块化支持向量机算法具有更好的时间效率。

题目:基于Spark的并行图数据分析系统
作者:王虹旭吴斌刘旸
单位:北京邮电大学计算机学院
摘要:
提出了一种基于Spark计算平台的并行数据分析系统。系统以大规模图数据分析任务为主,并支持非图数据分析应用,集成了数据分析算法集合与非图数据分析算法集。详细阐述了该系统的架构设计,以及部分并行数据分析算法的设计与实现。通过多种规模的数据集测试,该系统相对于以往的图数据挖掘系统可以更高效的完成计算任务,而且也可以有效进行非图数据分析。

题目:大数据下利用块依赖的并行实体解析算法
作者:王宁黄敏
单位:北京交通大学计算机与信息技术学院
摘要:
实体解析在数据库管理、信息检索中均有广泛应用,大数据时代的到来使得实体解析在海量数据的处理上面临新的挑战。为适应海量数据的实体解析工作,提出基于块依赖的并行实体解析方法,该方法在MapReduce编程框架下分三阶段实现:首先,依靠分块技术初步减少计算量;其次,通过基于块依赖的数据筛选策略,挑选分块中与所在块的块依赖度较低的实体与其他块中实体匹配,不仅保证解析结果的正确性,且在一定程度上控制了计算量;最后,通过设定跨度距离来控制解析数量,进一步提高时间效率。采用真实数据集在Hadoop上对该方法进行了评估,实验结果表明该方法在保证解析质量的基础上具有良好的时效性。

题目:基于Hadoop的局部支持向量机
作者:崔文斌温孚江牟少敏庆波
单位:山东农业大学农业大数据研究中心
摘要:
随着物联网、云计算等技术的不断发展,产生的数据也以爆炸式的速度不断增长,如何在大数据中进行挖掘和分析成为了当前学术界研究的热点.Hadoop分布式计算也因此逐渐成为了大数据挖掘和分析的主要技术.支持向量机则是一种应用比较广泛的数据挖掘方法,局部支持向量机是在支持向量机的基础上引入局部学习算法的一种有效的分类算法.但是,局部支持向量机需要为每个测试样本分别构造分类器,在大数据上进行分类的时间复杂度较高,分类效率比较低.针对上述问题,本文结合Hadoop并行计算平台,提出了基于Hadoop的局部支持向量机算法.本文对局部支持向量机进行了两方面的改进:第一是将计算测试样本的k近邻并行化,第二是将训练模型并行化.通过测试实验,结果表明:基于Hadoop的局部支持向量机能够有效降低分类时间,且在分类精度上与局部支持向量机基本保持一致.

Session A4:查询检索

地点:西双版纳厅                 时间:8:30-10:00                   主持人:陈耿

题目:HiBase:一种基于分层式索引的高效HBase查询技术与系统
作者:葛微罗圣美周文辉赵頔唐云周娟曲文武袁春风黄宜华
单位:南京大学计算机软件新技术国家重点实验室
摘要:
HadoopHBase系统为大数据的存储管理提供了一种具有高可扩展性的技术方法和系统平台。然而HBase不支持非主键索引,导致HBase的数据查询效率较低,难以满足数据实时/准实时查询需求。本文研究提出了一种基于分层式HBase非主键索引的查询模型和方法,包括基于HBase的持久性索引、基于分布式内存的索引热点数据缓存技术和高效的热度累积缓存替换策略,并实现于分层式索引和查询系统HiBase。在千万至十亿条记录规模数据集上的测试结果表明,HiBase总体查询性能比标准HBase300多倍(大结果集)到1.7万倍(小结果集),比开源的Hindex系统快5~20倍。

题目:异构信息网上的可达性查询
作者:尹丹高宏邹兆年李建中
单位:哈尔滨工业大学计算机科学与技术学院
摘要:
随着图数据规模的爆炸式增长其形式也越来越复杂.异构信息网可建模成包含多种类型的顶点和多种类型的边的图.例如文献数据库、在线购物网站等.首次研究异构信息网上的可达性查询问题.利用不同类型顶点之间的关系查询两个顶点满足路径模式的可达性该问题的时间复杂度是多项式的.然而在大规模的网络上每次查询遍历一遍网络的时间开销也是不能容忍的.现有的可达性查询问题主要分为两类:k跳可达性查询和带有标签约束的可达性查询.但是这两种问题的算法都不能用于解决异构信息网上的可达性查询问题.因此为了实现高效的在线查询提出一种新的索引结构通过路径模式的分解预先计算部分路径模式的可达信息.当在线查询到来时在路径模式的偏序图上快速找到索引结构中存在的路径子模式高效地计算查询结果.在真实和人工数据集上进行了大量实验验证了算法的有效性.

题目:基于LDA主题模型的分布式信息检索集合选择方法
作者:何旭峰陈岭陈根才钱坤吴勇王敬昌
单位:浙江鸿程计算机系统有限公司/浙江大学计算机科学与技术学院
摘要:
针对分布式信息检索时不同集合对最终检索结果贡献度有差异的现象,提出一种基于LDA主题模型的集合选择方法。该方法首先使用基于查询的采样方法获取各集合描述信息;其次,通过建立LDA主题模型计算查询与文档的主题相关度;接着,用基于关键词相关度和基于主题相关度结合的方法估计查询与样本集中文档的综合相关度;最后,通过样本集文档所属的集合信息,估计查询与各集合的相关度,进而选择相关度最高的M集合进行检索。实验部分采用RmP@nMAP作为评价指标对集合选择方法的性能进行了验证。实验结果表明本文提出方法能更准确的定位到包含相关文档多的集合,提高了检索结果的召回率和准确率。

题目:基于浓密树和改进McCHyp算法的Impala查询优化
作者:马骄阳陈岭赵宇亮杨谊吴勇王敬昌
单位:浙江鸿程计算机系统有限公司/浙江大学计算机科学与技术学院
摘要:
针对Impala大数据实时查询系统在查询优化上存在的问题,提出基于浓密树和改进的McCHypMinCutConservativeHypergraph)算法的Impala查询优化方法。首先,修改Impala使其支持浓密树的查询计划;接着,使用剪枝策略对McCHyp算法进行改进,减少查询优化的时间;最后,提出一种适用于Impala的代价模型,并将改进的McCHyp算法集成到Impala中,根据用户的SQL语句生成较优的查询计划。在Impala系统上实现了本文提出的查询优化方法并在TPC-H数据集上进行了实验,结果表明,改进的McCHyp算法与McCHyp算法对连接超图的优化结果一致,且前者的运行时间减少了43.82%~62.55%。同时,使用改进的McCHyp算法及新的代价模型对查询语句优化后,查询响应时间较原始的Impala系统减少了79.60%

题目:基于内存的分布式隐私流查询系统
作者:张鹏刘庆云熊翠文李保珲郑超易立
单位:中国科学院信息工程研究所
摘要:
随着大数据时代的到来,隐私问题备受关注,用户一方面希望获得新鲜和低延迟的查询结果,另一方面又希望对查询信息进行隐私保护,为此本文提出了一种基于内存的分布式隐私流查询系统,其中,查询可以通过Paillier密码系统进行加密。该系统在shared-nothing架构下支持水平扩展,实现了在内存中对流数据进行分片的并行查询以及基于位图索引的压缩存储。实验证明了该系统的有效性。

题目:基于信息熵加权的三维模型特征融合算法
作者:李海生张朝立蔡强毛典辉杜军平
单位:北京邮电大学计算机学院/北京工商大学计算机与信息工程学院
摘要:
特征融合是提高三维模型检索有效性的一种重要手段,越来越受到广泛关注。为解决融合特征权重的自适应问题,提出了一种基于信息熵加权的三维模型多特征融合算法,以提升检索效果。算法的主要贡献有:首先为了精确地刻画形状分布直方图,针对传统形状分布算法提出了三次样条插值形状分布特征提取算法,同时由于形状分布算法本身缺少描述模型形状的层次分布信息,设计了简化的形状上下文特征提取算法;然后,采用衡量不确定性的信息熵来自适应计算上述两个欲融合特征的权值,进而得到融合后的相似距离用于三维模型检索。在SHREC2014的综合模型库上实验,结果表明:所提特征融合算法的通用和加权的六种评价指标(PR/NN/FT/ST/E/DCG)优于采用单一特征的检索算法,且运行效率较高。

Session B4:大数据应用

地点:西双版纳厅                 时间:10:15-12:00          主持人:罗圣美

题目:海量车牌识别数据集上基于时空划分的旅行时间计算方法
作者:赵卓峰张帅丁维龙
单位:北方工业大学云计算研究中心
摘要:
城市路段旅行时间计算是智能交通领域研究的热点问题之一,精确的旅行时间计算有助于实现路网调度,减少交通拥塞。车牌识别数据作为近年来新兴的一种针对城市道路行驶车辆的实时监测数据,具有持续生成且数据量大、时间空间相关等特性。为了利用车牌识别数据集进行高效、准确的旅行时间计算,给出了基于车牌识别数据集的旅行时间计算定义,在此基础上提出一种基于时空划分的流水线式并行计算模型,并给出了该模型基于实时MapReduce的实现。通过一组基于海量真实车牌识别数据集的实验表明,相对于传统的旅行时间计算方式,本文方法在亿级车牌数据集上的旅行时间计算性能方面可以提高3倍以上,同时具有适合细粒度划分、受路网规模影响小及扩展性好的特点。

题目:基于海量医疗数据的症状自查服务的云框架设计
作者:周作建林文敏王斌斌金贵
单位:南京大学计算机软件新技术国家重点实验室
摘要:
随着当前社会"亚健康"人群的增加,症状自查服务显得愈发重要。各地基于居民健康档案的区域卫生信息平台的建立,为症状自查服务实现提供了数据基础,但是我们仍面临着海量电子病历的获取、存储、搜索以及数据分析计算等诸多挑战。鉴于上述问题,本文提出一种基于云框架的症状自查服务模型。首先,本文建立了Hadoop集群,用来对海量医疗数据的存储以及索引的建立,提高电子病历的搜索响应时间。其次,本文设计了基于Lucene的分布式搜索节点集群,用来对海量的电子病历进行实时检索、数据分析和隐私过滤。此外,本文对症状自查服务的实现进行讨论,包括搜索节点的选择、病历索引文件的建立、病历相似度的计算及排序方法。最后,本文通过实验证实症状自查服务的云框架模型具有可扩展性和有效性。

题目:基于TCBF_LRU的高速网络大流检测算法
作者:白磊田立勤陈超
单位:华北科技学院计算机学院
摘要:
在高速主干网络中,随着网络链路速率的不断提高和网络流数量的急速增加,同时受到硬件计算和存储资源的限制,如何及时、准确地在海量数据中,有效的检测出其中的大流信息,成为目前大规模高速网络流测量的热点问题。本文根据传统的LRU算法容易淘汰大流和频繁更新给系统带来巨大压力的缺陷,提出一种新的大流检测算法——TCBF_LRU算法,用于高速网络大流信息识别。算法通过时间超时和大流报文预保护策略,过滤大部分的小流报文,极大减少LRU算法小流置换大流的概率,提高算法的准确性。分析了算法的误判率和复杂度,并通过实际主干网trace数据,实验分析了算法参数配置对于大流检测准确性的影响。理论分析和仿真结果表明,与标准LRU算法和BF_LRU算法相比,在使用相同的缓存空间下,TCBF_LRU算法具有更高的测量准确性和实用性。

题目:大数据下纺织制造执行系统关键问题研究
作者:邵景峰贺兴时王进富白晓波刘晟马创涛刘聪颖
单位:西安工程大学管理学院/长安大学信息工程学院
摘要:
为解决纺织制造执行系统设计过程中的数据融合问题,首先对纺织制造过程中产生的海量数据及其相关性进行分析,并对纺织工艺流程进行了优化设计,然后,利用多色集合理论对纺织制造过程中产生的海量数据进行了统一形式化表达,并针对异构纺织监测系统数据库间难以融合的问题,利用D-S证据提出了一种采用两级传感器信息融合的方法。最后,通过实验验证,结果表明:通过对制造过程数据的统一描述,提出的信息融合方法有效解决了海量纺织数据的融合问题,实现了计划层与制造层之间信息的有效衔接,有利于为构建大数据环境下的纺织制造执行系统提供技术支撑。

题目:一种支持音乐情感检索的索引结构
作者:王伟徐立臻董逸生
单位:东南大学计算机科学与工程学院
摘要:
本文提出一种支持音乐情感色彩检索的索引结构。针对MIDI音乐文件的音高特征数据,提出音高与色彩关联概念,建立音高色彩空间,然后在分析多个情感模型的基础上,提出音高色彩与情感映射的情感色彩词组对表,建立音乐情感色彩索引,并设计一个情感色彩检索算法。理论分析和实验结果表明:通过色彩能直观有效地表现出音乐所蕴含的基本情感,为音乐情感检索提供了一种新思路。

题目:电力数据语义冲突检测及消减技术研究
作者:张德刚吴毅张德海张少泉
单位:云南电力试验研究院(集团)有限公司电力研究院
摘要:
随着电力企业信息化的加快,企业内部各种信息系统间的异构数据逐渐增多,如何有效的消除这些异构数据之间的语义冲突成为一个热点问题。本文根据电力数据语义冲突的具体情况,提出了一个冲突检测及消减模型,将电力企业内部的异构数据源进行融合,有效地解决电力企业内部数据源语义冲突问题。使用结果表明,该模型可以有效消解异构数据源之间的语义冲突,为电力企业内部及企业间异构数据的融合和共享提供有力的支持。

题目:大数据背景下山东省二代玉米螟发生程度预测模型的构建
作者:杨波刘勇牟少敏温孚江
单位:山东农业大学大数据研究中心
摘要:
大数据技术重塑了我们周围的世界。农业大数据是大数据的重要组成部分,是大数据理念、技术和方法在农业领域的应用和发展。依靠多年农作物害虫发生的数据积累,使数据转化为监测预警的行动,是大数据思想和理念的具体体现。通过对山东省2003-2013年的平均气温、降水、日照时数、风速等气象资料的相关分析,采用多元线性回归方法,分析预测6月下旬、7月上、中、下旬和8月上旬,玉米螟的发生程度,建立了玉米螟动态气候预测模型。经检验,玉米螟的发生与当地的气象条件有直接的关系,6月下旬、7月上旬、7月下旬和8月上旬模型拟合的准确率分别为91%77%69%、和68%

 

Session A5:数据安全与大数据系统

地点:会议室7+8                  时间:8:30-10:00                   主持人:何利文

题目:增强云存储中数据机密性的属性基加密方案
作者:张星文子龙沈晴霓吴中海
单位:北京大学软件与微电子学院
摘要:
云存储中的敏感数据需要以加密形式存储以确保其安全,属性基加密(ABE)被广泛用于对加密数据的细粒度共享.然而,ABE中存在三类影响数据机密性的问题:(1)用户可以共享他/她的密钥而不被发现;(2)密钥生成中心(KGC)可以生成带有任意属性集或访问结构的密钥;(3KGC可以用它的主密钥解密任意的密文.这三类问题的存在,使得使用ABE的系统中的数据面临极大的安全挑战.提出了一个增强云存储中数据机密性的密钥-策略属性基加密(EDC-KP-ABE)方案,包含两个机构KGC和属性机构(AA),KGC生成用户密钥中与身份相关的部分,KGCAA联合生成用户密钥中与属性相关的部分,在判定双线性Diffie-Hellman假设下达到了选择属性集模型下的选择明文安全,不仅可以抵抗恶意的用户或者机构的攻击,还可以抵抗用户与机构的合谋攻击,能够实现对于解密器的黑盒追踪,适用于主流的ABE方案,并给出了通用的转换方法.

题目:可信固态硬盘:大数据安全的新基础
作者:田洪亮张勇许信辉李超春晓
单位:清华大学计算机科学与技术系
摘要:
大数据平台,因其数据多、价值高和存储集中的特点,已经成为对攻击者非常有吸引力的目标。因此,大数据安全是一个非常重要的研究课题。然而,当前两种保障大数据平台(Hadoop)数据安全的常见方法各有不足:一种是访问控制通常由系统软件实现,存在被外部黑客攻破或内部管理员绕过的风险;另一种是数据加密,虽然密码学方法的安全性较高,但加密解密海量数据增加了额外开销。综上所述,现有方法难以在保护海量数据时既提供较高的安全保证,又只带来可忽略不计的额外开销。
本论文提出可信固态硬盘(TrustedSSD),它提供安全增强的存储设备接口和协议,使得用户可以对存储中的数据施以细粒度的访问控制,保障存储中数据的安全性。访问控制层是可信固态硬盘的安全引擎,与通常固态硬盘的存储引擎闪存转换层紧密结合,实现高效的用户认证和操作授权。结合用户库函数和操作系统支持,可信固态硬盘可以为数据密集型应用提供安全的数据存储服务。我们在商用成功的固态硬盘控制器上实现了原型系统。实验结果表明,无论是在合成的、还是真实的工作负载上,可信固态硬盘的运行开销只有不到3%。因此,我们认为可信固态硬盘有望成为大数据安全的新基础。

题目:面向大数据的软件定义安全服务
作者:何利文李杰陈向东鲁蔚锋孔令军王少辉黄俊
单位:南京邮电大学
摘要:
大数据(Bigdata)技术的普遍应用正在改变着传统的信息安全体系,因此需要设计新的信息安全模型和新的信息安全处理方法来面对新型信息安全挑战。本文从"端"、"管"、"云"三个层面出发,详细分析了信息安全服务系统所面临的新问题,提出了一种面向大数据的软件定义安全服务的体系架构,采用终端、网络、云平台相分离的方式构建信息安全服务系统,通过分层解耦合架构,在不同层面实现安全能力的服务化。

题目:基于属性的广义签密方案
作者:韩益亮白寅城房鼎益杨晓元
单位:武警工程大学电子技术系
摘要:
现有签密方案存在不能向模糊身份的接收方发送数据、且对数据的共享访问控制不够精细,而基于属性的签密也无法自适应地实现机密性、认证性以及机密且认证等不同的安全需求。本文在离散对数和随机预言机模型下提出了一种基于属性的广义签密方案。通过引入属性集,使数据可以凭用户的属性为依据进行分发;通过区分通信双方所持有的密钥,可以提供单独的机密性、认证性和复合的机密性和认证性功能。在DBDH假设下的安全性分析表明方案证明了方案在选择密文攻击下达到了不可区分性,在CDH假设下的安全性分析表明方案在选择消息攻击下达到了不可伪造性。与其它类似方案相比,本方案在属性个数增加时,密文长度和密钥长度不会线性增长,效率更高。

题目:接收与处理分离的实时大数据处理模型
作者:彭建华李臣明邱军林李晓芳徐立中
单位:河海大学计算机与信息学院
摘要:
在大数据处理系统中,系统对数据处理效率、安全、稳定性有非常高的要求。为了满足对大数据实时、高效、稳定处理的需求,文章提出了一种接收与处理分离的数据处理模型,数据处理模型由数据接收单元、内存数据库、原始数据分发单元、数据处理单元、处理数据分发单元、数据归并单元组成,接收单元负责接收、整合结构化数据与非结构化数据,把每条完整的数据放入内存数据库中,分发单元从内存数据库中检测获取数据,按照海量数据负载均衡算法把数据分发到数据处理单元,数据处理单元处理数据,处理结果放入内存数据库,处理数据分发单元继续从内存数据库中获取处理后的数据并按照海量数据负载均衡算法把数据分发给数据归并单元,实验证明,使用本模型方法,系统保持了非常高效的处理效率。

题目:观交通数据处理平台
作者:董振禹晓辉崔星灿宋仁勇林立伟
单位:济南观数据技术有限公司
摘要:
近些年,城市中在主要路段和路口设置的交通卡口点及高清摄像头的数目呈增长趋势。对于大中型城市来说,这些摄像头将会产生海量包含通行记录和图像在内的数据。现有的基于传统关系数据库的解决方案已经无法有效地管理如此大规模的数据,也无法为数据的离线分析和实时处理提供具有高效及可伸缩性的保障。为了解决这一系列问题,我们开发了观交通数据处理平台(观平台)。该平台可以为交通数据提供分布式、具有良好可伸缩性的处理支持。它集成了ApacheHadoopS4开源框架,可以同时运行批处理任务和实时处理任务。观平台已经在国内某城市的生产环境中成功运行近两年。本文将会给出平台的架构说明以及在设计和开发过程中的一些收获。

Session B5:大数据系统与体系结构

地点:会议室7+8                  时间:10:15-12:00                 主持人:张东

 

题目:BDSim:面向大数据应用的组件化高可配并行模拟框架
作者:李文明叶笑春张洋宋风龙王达唐士斌范东睿
单位:中国科学院计算技术研究所计算机体系结构国家重点实验室
摘要:
大规模并行模拟是研究大数据体系结构的重要方法,对大数据应用及众核体系结构的发展有着不可替代的推动作用。然而,目前的模拟技术不能满足大数据体系结构研究的需求,主要体现在模拟速度慢、配置过程复杂、可扩展性差等方面。为了解决此问题,评估面向大数据应用的高通量众核体系结构的性能与功耗,本文提出了面向大数据应用的并行模拟框架——BDSim。该框架基于组件化思想,将功能组件与框架服务单元组成并行功能单元,并可根据负载情况,自由配置组件与框架服务单元之间的映射关系。为了提高组件之间的通信和同步效率,本文提出了一种非阻塞无锁通信优化方法,和一种CMB保守同步算法的优化算法——NMTRT-CMB同步算法。通过模拟不同并发规模的基于2D-Mesh网络的众核系统的实验结果表明,与基于锁的并行通信方法相比,框架采用的非阻塞无锁通信优化方法可以提高并行模拟速度约10%,与CMB同步算法相比,NMTRT-CMB同步算法可以减少空消息数量达90%以上。

题目:云海大数据一体机体系结构和关键技术
作者:张东开元吴楠辛国茂刘正伟颜秉珩郭锋
单位:高效能服务器和存储技术国家重点实验室
摘要:
为了弥补从大数据技术到行业应用之间的鸿沟针对当前行业用户对大数据处理平台的持续扩展、一体化和多样性需求,提出了大数据一体机的可扩展性、可定制性和多类型处理模型,并基于此设计了云海大数据一体机.该一体机采用兼顾横向和纵向可扩展的体系结构,并采用硬件可定制化设计和混合型软件架构支持多种大数据应用类型.在此基础上,针对HDFS元数据服务瓶颈问题、MapReduce负载倾斜问题、HBase的跨域问题,介绍了在云海大数据一体机中采用的多元数据服务、负载均衡和跨数据中心大表技术.在电信、金融和环保行业实际案例中的应用和测试表明,上述体系结构和关键技术是可行和有效性的.

题目:一种面向图数据的预装载缓存策略
作者:黄硕左遥梁英许洪波熊锦华王千博程学旗
单位:中国科学院网络技术科学与技术重点实验室
摘要:
真实世界中存在很多数据规模大且关联性强的图数据,对其分析和查询能够帮助我们获取巨大价值,而图缓存技术可以有效提高图数据的访问效率和查询效率。本文提出了一种面向大规模数据的图数据预装载缓存策略,采用"基于结点访问日志"和"大度数优先"的两种装载方法,缓存图数据边表的热数据。在图存储系统GolaxyGDB中设计了一个分布式图数据缓存框架,实现了缓存装载、访问、替换和一致性维护策略。实验表明,图数据预装载缓存策略能有效提高图数据复杂查询的效率,满足实际应用的在线访问需求。

题目:GRC:一种适用于多节点失效的高容错低修复成本纠
作者:林轩王意洁裴晓强许方亮符永铨
单位:国防科学技术大学计算机学院并行与分布式处理国家重点实验室
摘要:
作为云计算重要基础的大规模分布式容错存储系统,采用纠码作为数据冗余技术能比多副本技术以更低的存储开销获得相同的数据可靠性.然而,过高的修复成本使纠删码技术在实际中的应用受到限制.已有的改进工作虽然可以降低成本,但在多节点失效修复的成本过高.本文提出一种适用于多节点失效的高容错低修复成本纠码——分组修复码(GroupRepairableCodes,简称GRC).GRC码通过将条带分组并增加组编码块,显著减少了修复所要传输的数据量,从而节省了宝贵的网络带宽和磁盘I/O资源;GRC码通过多个组编码块在多节点失效时降低修复成本,且维持较好容错能力.根据GRC码的特征,本文提出基于贪心策略的解码算法GSBD(GreedyStrategyBasedDecodeAlgorithm)GSBD通过保证每个失效块的修复成本最小以优化修复过程.实验结果显示,与RS码相比,GRC码将修复网络带宽和磁盘I/O降低50%-55%,修复速度提高75%-90%,仅需增加21%存储空间;与LRC码相比,GRC码将修复网络带宽和磁盘I/O降低35%-45%,修复速度提高40%-50%,仅需增加13%存储空间;与BasicPyramidCode(简称BPC)相比,GRC码将修复网络带宽和磁盘I/O降低15%-25%,修复速度提高20%-25%,仅需增加6%存储空间.

题目:一种基于历史信息的一致性哈希集群重复数据删除路由策略
作者:邢玉轩肖侬刘芳付印金李芳巫小泉
单位:国防科学技术大学计算机学院
摘要:
全球数据量爆炸式增长,单节点重复数据删除系统已不能满足性能需求,集群重复数据删除系统应运而生。如何提高数据传输效率、节约网络带宽和增强系统的可扩展性,成为当前面临的严峻挑战。我们提出一种基于历史数据信息的一致性哈希路由策略,通过在本地缓存热点数据块指纹,数据路由前先在本地索引,可以大大减少索引消息请求数量,并且采用一致性哈希的路由策略,有效的缓解集群系统中动态扩展存储节点导致的全局数据重率急剧恶化与负载不均。我们在三类真实的数据集上进行试验,能减少20%~80%的指纹消息请求,动态扩展存储节点导致数据缩减率降低保持在33%以下,并且能够很好地保持系统节点间负载均衡。

题目:一种提高虚拟化Hadoop系统数据本地性的资源调度方法
作者:孙瑞琦杨杰高瞻贺志强
单位:北京航空航天大学计算机学院
摘要:
Hadoop系统中,大规模数据分析应用程序的数据本地性是影响其性能的关键因素。传统的Hadoop系统是部署在物理机中的,目前针对传统Hadoop系统提高数据本地性的资源调度方法在虚拟化的Hadoop系统中效果不佳。这是因为在虚拟化的Hadoop中,数据的分布被分为了两个层次:虚拟机和物理机。该文采用将计算节点和存储节点分别部署在不同虚拟机中的方式部署虚拟化Hadoop系统,并提出了一种提高数据本地性的资源调度方法。首先,在任务提交阶段,调节作为计算节点的虚拟机的计算能力,使其能够运行较高数据本地性的任务;其次,在任务运行阶段,通过迁移计算节点到任务所需数据存储节点所在的物理机以提高数据本地性。实验表明,本文提出的方法能够使86%的测试程序的作业完成时间在不同程度上有所减少。特别地,在测试案例TeraSort中处理10GB的数据,本文的方法比传统方法缩短了33%的作业完成时间。

题目:云计算环境下基于改进粒子群优化算法的多目标资源调度策略研究
作者:赵宏伟
单位:沈阳大学信息工程学院
摘要:
为了实现云计算资源调度的多目标优化提高资源利用率和保证云应用的服务质量通过对云计算资源调度策略进行研究,设计并实现了一种基于改进粒子群算法的云计算资源动态调度策略。本文首先提出云计算资源的动态调度策略的管理框架,并给出本框架形式;其次,设计并实现了一种综合运用粒子群算法和考虑物理结点个数、应用性能以及当前的负载情况的资源分配算法。最终在CloudSim平台进行了仿真,结果表明此调度策略能实现综合考虑资源利用率和云应用的服务质量的多目标资源分配算法,提高了云计算中心的资源利用率的同时,也保证了云应用的服务质量和应用的性能。