本实验室主要承担大数据和计算机系统课程群的教学工作。主要的课程教学工作包括:
MapReduce大数据并行处理技术
教材:《深入理解大数据--大数据并行处理与编程实践》,黄宜华 主编,机械工业出版社,2014.7,488页。教育部计算机专业教学指导委员会列为"计算机类专业系统能力培养系列教材"
出版社图书介绍网址:http://www.hzbook.com/Books/7874.html
课程实验集群:http://114.212.190.91 (仅限南京大学校园网络访问)
课程实验集群当前负载情况:http://114.212.190.92/ganglia (仅限南京大学校园网络访问)
主讲教师:黄宜华
课程类型:选修
学 时: 2
学 分: 2
前导课程:Java程序设计
教学目的和任务:
本课程的开设将能够为学生系统介绍目前业界和学术界最新的并行计算和大数据并行处理技术和程序设计方法。本课程的主要目标是通过介绍大数据并行处理技术和MapReduce并行编程模型和方法,要求学生理解和掌握并行处理技术的基本概念、原理和构架、以及基于集群的大数据并行处理与编程技术方法、并能够用MapReduce解决实际的大数据处理应用问题,设计开发大数据处理算法和应用程序。
对选课学生的要求:
具有Java程序设计能力,除课堂听课外需要完成编程实验;研究生还要求在学期结束时自选课题完成一个课程设计。
教学内容简介以及课时安排:
本课程首先介绍并行计算技术的基本概念、原理、方法和技术,并行计算系统的基本分类和体系结构;在此基础上,介绍基于集群的大数据并行处理技术原理和方法,着重介绍MapReduce并行计算集群的构架、用于大数据存储和计算的分布式文件系统、以及基于MapReduce集群的大数据并行处理技术和编程方法、MapReduce并行化算法设计技术、并行化算法应用研究案例。 本课程是本系研究生的选修课程,同时,也作为本科高年级选修课程面向高年级本科生开放。 课程将以理论技术的课堂讲授与课外的编程设计实践相结合,课堂授课2学时/周,课外实习和课程设计4-6小时/周。
主要章节:
Ch.1 并行计算技术简介
简要介绍并行计算技术的概况,基本分类,主要技术问题,MPI并行程序设计,大规模并行数据处理技术
Ch.2 MapReduce简介简要介绍MapReduce技术的由来,基本构思,编程模型,主要设计思想和技术特征,基本应用
Ch.3 Google MapReduce的基本构架介绍Google MapReduce并行计算框架的基本结构、工作原理,Google分布式文件系统GFS的基本构架与工作原理,Google结构化数理系统据管BigTable的基本结构与工作原理
Ch.4 Hadoop 的基本构架介绍开源MapReduce系统Hadoop 的基本结构、工作原理,Hadoop分布式文件系统HDFS的基本构架与工作原理,Hadoop数据管理系统的基本结构与工作原理
实验1:Hadoop的安装与配置(在个人的电脑上安装一个单机版本) Ch.5 Hadoop系统安装运行与程序开发架
介绍单机和集群Hadoop系统安装方法和步骤,以及程序开发环境与开发过程
实验2:莎士比亚文集词频统计(Word Count)实验 Ch.6 MapReduce算法设计
介绍排序算法、文档倒排索引、文档共现算法、专利文献数据分析等基本MapReduce算法设计和实现
实验3:莎士比亚文集文档倒排索引实验 Ch.7 高级MapReduce编程技术
介绍复杂I/O数据表示、用复合键值对完成特殊处理、程序员定制的I/O格式、Partitioner、Combiner,基于迭代的MapReduce求解方法、数据相关MapReduce任务计算、链式MapReduce计算、多数据源连接、访问关系数据库等高级技术
Ch.8 基于MapReduce的搜索引擎算法 介绍网页排名算法PageRank,搜索引擎文档倒排索引算法,以及搜索引擎全文检索系统的设计实现
实验4:Wikipedia网页PageRank实验 Ch.9 基于MapReduce的数据挖掘基础算法
介绍机器学习和数据挖掘中的聚类算法、分类算法、频繁项集挖掘等算法的MapReduce并行化算法设计
Ch. 10 基于MapReduce的并行化算法应用研究案例介绍基于MapReduce的DNA序列比对算法、重复Web文档检测算法、统计机器翻译算法的设计和实现
Ch.11 云计算技术简介介绍云计算技术的基本概念,发展现状、关键技术问题、云计算应用技术
课程设计大作业 课程设计大作业(研究生):自选具有一定难度和工作量的题目,鼓励结合导师的研究工作自选课程设计题目,完成课程设计
教学方式 课堂教学+实验+课程设计
考核标准 课程期末考试
笔试,本科生:占70%;研究生:50%
课程实验
本科生:实验,占30%;研究生:实验,占25%
课程设计
研究生:自主选题或结合导师研究课题选题,25%
课程实验集群 实验集群使用说明: http://114.212.190.91