Apache Spark 1.0 发布,我组做出开源贡献

2014年5月30日,备受瞩目、并且已经在工业界逐步使用的开源集群计算环境——Apache Spark终于发布了其1.0版本。Spark由于内存计算、适合迭代实时计算等特性,克服了Hadoop自身的很多不足,如果使用得当,相比Hadoop在同样的环境下,能有几十倍乃至一百倍的计算速度提升,被普遍认为是解决大数据问题的一项重要工具。

该1.0版本包含了大量新特性和API兼容性,进一步加强了与Hadoop/YARN的整合性,增加了Spark SQL等组件用以对结构化数据进行查询,优化了机器学习库MLib,同时优化了GraphX和Streaming计算的库文件,所有上述提供的API稳定性都得到了很好的保证。

在这个全新的1.0稳定版本中,南京大学PASA大数据实验室,作为国内少数走在大数据前沿的大学实验室,我们组在Spark所使用的分布式存储系统Tachyon中,优化了Spark运算中RDD存储的问题,使其可以摆脱Java Heap的存储限制,可以进一步提高Spark的计算速度。

2014年4月19日,我组博士生顾荣作为代表,在2014年中国Spark技术峰会上,还介绍了我组另外一项关于Spark相关技术的研究和开发。

相信随着学术界和工业界对Spark的持续关注和使用,越来越多的关于其上的有趣研究会出现,我们组也会持续关注和研究。

Spark1.0发布:http://spark.apache.org/releases/spark-release-1-0-0.html
Spark峰会:http://special.csdncms.csdn.net/SparkSummit/