PASA大数据实验室简介

南京大学PASA大数据实验室(PASA:Parallel Algorithms, Systems and Applications for Big Data, 大数据并行算法、系统与应用)是南京大学计算科学与技术系专门从事系统化大数据技术研究教学的课题组,是全国最早系统化开展大数据技术研究教学的课题组之一。早在大数据还鲜为关注的2009年,PASA大数据实验室即已开始进入大数据并行处理技术领域。2009年以来,实验室在大数据技术领域开展了一系列系统深入的研究开发工作,在大数据分布式大数据存储和查询、大数据并行计算模式与系统、Hadoop/Spark性能优化与功能增强、分布式文件系统、大数据机器学习算法与系统、大规模文本语义分析、大规模语义数据管理与查询分析、大数据体系结构与云计算、大规模Web信息挖掘集成、大数据行业应用等方面开展了广泛的研究,积累了系统的研究和技术基础。

实验室承担了多项国家和省部级大数据相关研究课题,同时还开展了与Google、Intel、微软亚洲研究院、UC伯克利大学AMP实验室、百度、华为、中兴通讯等国内外著名企业和研究机构在大数据领域的合作研究。尤其是本实验室与伯克利大学AMP实验室和开源社区在著名的大数据处理系统Spark和分布式数据存储系统Alluxio方面开展了合作研究开发。由于对Alluxio系统持续的重要贡献,目前本实验室所代表的南京大学与阿里巴巴、百度、卡内基梅隆大学、IBM、Intel、Red Hat、UC Berkeley和 Yahoo等国际著名研究机构与企业一道,同列为Alluxio系统全球十大重要贡献单位(http://alluxio.org/documentation/master/cn/

2010年初在Google公司资助下,实验室建设了MapReduce大规模数据并行处理技术课程,使本校成为全国最早开设该课程教学的少数几个院校之一,目前已经在本系开设该课程7年。在计算机系和国家重点实验室支持下,由本实验室负责,建设了由全系共享使用的大数据处理平台,规模达到150个节点、共计可存储处理1PB的数据,为本系的大数据技术研究和教学提供了强大的支撑平台。