我组同学参加AMPCamp大数据金牌训练营

2015年5月23日,由加州大学伯克利分校AMPLab主办的大数据金牌训练营AMPCamp@China 2015在上海Intel成功落幕,这是AMPCamp举办5年来首次移师美国之外的国家。我组黄宜华老师以及顾荣、董乾豪、周娟、郭晨四位同学参加了此次活动。

上午,美国伯克利大学计算机系的系主任,AMPLab的主管,Michael Franklin教授远程亲致开幕词。随后AMPLab的讲师和英特尔的大数据资深专家们同开发者展开全方位的大数据最新技术分享、专题讨论与成果展示。下午,参会者们坐在一起,在大数据资深专家的指导下实战Spark,Tachyon,MLlib,GraphX等大数据领域最新的技术。Spark是一个通用且高速的大数据处理引擎,它采用了内存计算技术和DAG执行技术,大大提高了大数据处理速度,其效率在某些情况下是hadoop mapreduce引擎的10倍到100倍。此外,Spark还内建了例如MLlib,Spark SQL, Spark Streaming,GraphX等工具,为用户提供了高效的机器学习、SQL查询、流式计算和图计算解决方案。用户可以通过Scala,java,python语言编写Spark应用,也可以通过SparkR工具利用R语言使用Spark。而分布式内存文件系统Tachyon为诸如hadoop mapreduce,Spark等计算框架提供了内存级的文件访问速度。目前PASA实验室是Spark和Tachyon的贡献者。

在训练营现场,黄宜华老师参加了Intel组织的媒体见面会,接受了媒体采访,向参会媒体介绍了近几年来南京大学PASA大数据实验室与Intel的合作研究工作和成果。自2010年以来,PASA大数据实验室除承担了多项国家和省部级研究项目外,还与Intel和伯克利大学AMP实验室在分布式大数据存储和查询技术、大数据并行计算模式和框架、Hadoop系统性能优化、Spark性能优化与功能增强、Tachyon性能优化与功能增强等方面开展了诸多合作研究,取得了一系列研究成果。此外,实验室还与微软亚洲研究院、百度、中兴通讯等其他著名的国内外企业进行了合作研究。而英特尔大数据首席架构师戴金权表示,英特尔将进一步拓展和深化与开源社区、产业界、学术界的合作,并将大数据技术推广、应用到广阔的中国市场中。"我们也期望用户对大数据技术的更多采纳和应用能够反过来驱动大数据技术创新生态系统的加速发展,激发他们对更多、更具革新力的技术的探索,从而让技术的创新与应用形成互利互助的良性循环。"戴金权说。

在信息革命方兴未艾的今天,在我国"互联网+"的战略下,大数据技术已经站在时代的潮头。南京大学PASA大数据实验室,作为国内起步最早的大数据实验室之一,自2009年以来在大数据分布存储管理和查询、大规模RDF语义数据存储查询和推理系统、大数据并行计算模式和框架、大数据并行机器学习算法和系统等方面开展了诸多研究,积累了较为系统的研究基础。目前在大数据领域除承担国家项目以及与AMPLab进行合作研究外,还与Google、Intel、微软亚洲研究院、百度、中兴通讯等国内外诸多著名企业开展大数据方面的合作研究。在未来,PASA实验室仍将踏实前进,用大数据奏出这个时代最美妙的和弦。