南京大数据技术Meetup第十三次活动

南京大数据技术Meetup第十三次会议

简介:

2019年3月23日，南京大数据技术Meetup第十三次会议在南京市江北新区研创园成功举行。此次会议由南京大学PASA大数据实验室、江苏鸿程大数据技术与应用研究院与江苏省软件新技术与产业化协同创新中心联合主办，指导与支持单位包括中国计算机学会大数据专家委员会、南京江北新区产业技术研创园、江苏省计算机学会大数据专家委员会，会议合作媒体CSDN。本次会议邀请了南京大学PASA大数据实验室博士研究生朱光辉、字节跳动大数据架构工程师郭俊、香港科技大学博士研究生余英豪、星环科技产品总监杨俊等四位技术专家进行了报告。除了技术报告之外，还吸引了星环科技、国泰新点、南京奥工、维数软件、南京领添、Alluxio.Inc、杰士欣和南京大学PASA大数据实验室等单位前来布置海报交流。参与人员方面，这次活动吸引了200多位大数据技术资深从业者、高校研究者和技术爱好者参加，他们分别来自字节跳动、苏宁易购、苏宁金融、阿里巴巴、华为、中兴通讯、中兴软创、中国移动、途牛、28所、14所、南瑞集团、览笛科技、江苏国泰新点软件有限公司、Connext、东软集团、焦点科技、江苏银行、领添、苏州乐韵、三厘米网络科技、北明软件、星环科技、嘉和投资、擎天科技、超智慧信息科技、华苏科技、联成科技、天数润科、银平信息、南京云蜻蜓、努比亚、联蔚科技、北京数联道、华坤道威、南京图慧、南京大学、东南大学、南京航空航天大学、南京理工大学、南京农业大学、南京邮电大学、南京师范大学、河海大学、南京信息工程大学、南京中医药大学、南京工程学院、南京工业大学、江南大学、江苏大学、金陵科技学院等50多家企事业单位。

活动开幕由黄宜华教授主持，南京江北新区产业技术研创园管理办公室蒋华荣主任发表了热情洋溢的致辞，欢迎各位与会代表参加本次会议，并祝愿活动圆满成功。

紧接着，黄宜华教授向各位与会代表介绍了大数据的落地发展趋势，以及江苏鸿程大数据技术与应用研究院的相关情况。随后，整个活动进入技术报告环节，技术报告环节由顾荣博士主持。

在第一个报告中，南京大学PASA大数据实验室博士研究生朱光辉先生给大家作了题目为“自动化机器学习算法与系统研究进展”的演讲。朱博士在报告中提出，机器学习与人工智能技术目前已经广泛应用在各个行业，然而机器学习和人工智能技术门槛较高，目前主要依赖专业人员的人力和经验。数据分析人员不仅要熟练掌握和使用各种算法模型，而且还要熟悉每个算法的超参数调优技巧。因此朱博士提出如何设计高效的全生命周期的数据分析流程是非常具有挑战性的。为了解决上述问题和挑战，研究人员开始尝试自动化机器学习（AutoML），即用机器去自动化地完成模型选择和参数调优，让模型设计自动化，替代人工方式进行模型设计的过程，从而大量节省人力，降低机器学习算法设计的门槛，提高建模的效率。朱博士的本次分享涉及到AutoML的多个技术层面，包括自动化超参调优、自动化模型选择以及自动化特征工程。同时，本次分享也重点介绍了南京大学PASA大数据实验室在AutoML算法和系统方面的最新进展和成果，现场观众受益匪浅。

随后，字节跳动的大数据架构工程师郭俊先生给大家带来了一场题为“Spark SQL 在字节跳动的优化实践”的精彩报告。郭工说，在字节跳动内部，Spark / Spark SQL 每天处理 PB 级增量数据，为了更好处理不断增长的数据及业务需求，他们对 Spark SQL 进行了一系列改进。郭工主要介绍了字节跳动在Spark SQL 逻辑计划优化，物理计划优化，Spark 运行时优化，以及Spark Shuffle机制等方面的实践与创新。最后，郭工尤其提到Spark Shuffle机制优化是字节跳动与南京大学顾荣博士、黄宜华教授联合研究项目的成果。郭工由浅入深的报告方式引起了现场观众的阵阵掌声，许多嘉宾与观众在会后与郭工进行了深入交流。

中场休息的茶歇环节中本次活动设置了技术海报的展览和交流，一共有来自大数据应用服务、基础平台以及人工智能应用等领域的多个单位带来了他们的优秀成果，大家一边享用精美茶歇，一边交流技术。

活动的下半场，香港科技大学的余英豪博士给大家带来了一场题为“基于大数据分布式存储系统Alluxio的负载均衡优化”的报告分享。余博士指出计算和存储分离的架构为大数据运算引擎提供了弹性扩容的能力，成为云上大数据框架的未来发展趋势。然而，随着数据中心网络带宽的大幅提升，硬盘I/O的速度增长却趋于停滞，逐渐成为计算存储分离架构中的性能瓶颈。因此，在大数据应用和远端存储层之间部署一个以Alluxio为代表的内存文件缓存层来缓存热点数据，可以缩减硬盘I/O带来的瓶颈，提升读写效率。由于内存缓存层中数据热度的显著差异，分布式内存系统面临着负载失衡的严重风险。针对这一问题，他们团队通过选择性地分割热点文件并将其充分分散来保障负载均衡，并建立了一个分布式内存系统的模型来指导获取每个文件的理论最优分割数目。实验证明，相比于现有的分布式内存负载均衡算法，选择性文件分割的策略可以降低平均和尾部延迟达50%。大家都对计算和存储分离的架构有了更加直观、深入的理解。

最后，由星环科技的产品总监杨俊先生给大家做了题为“基于知识图谱的风控与营销建模应用”的报告。杨总提到，知识图谱技术得到越来越广泛的应用，其中基于图谱分析的一些算法和方法论也在实践中不断成熟，本报告分享介绍了他们将知识图片等技术在不同行业应用的技术流程与经验分享。杨俊先生的报告引发了现场很多观众的关注与讨论。

在现场热烈的研讨中，时间过得飞快，为期半天的南京大数据技术Meet up第十三次会议在大家的交流中圆满结束。本次活动加强了江苏省及周边地区大数据从业者的技术交流，在线上的大数据社区中也收到了良好的反响。技术在分享中进步，创新在交流中迸发。Meetup活动希望能为大数据技术的迭代创新贡献力量。感谢参加活动和为活动作出贡献的同仁，我们下次活动再Meet up！

活动主页：

https://www.huodongxing.com/event/5484263068711