研究方向
本实验室从多年来的大数据技术研究工作中总结发现,大数据技术具有很强的“行业应用需求驱动”特征,同时,从研究开发的角度观察,大数据具有很强的领域交叉和技术综合的特点。从信息处理系统角度看,大数据是现有诸多计算技术的综合和集成,广泛涉及到大数据并行算法(Algorithms)、软硬件系统(Systems)和大数据应用(Applications)等主要层面,这也是本实验室PASA名称的由来。为了系统化地开展大数据技术研究,本实验室主要关注和开展的研究工作包括:
大数据体系结构和云计算技术 | Big data architecture and cloud computing technologies |
大数据并行计算模式与系统 | Big data parallel computation models and systems |
Hadoop/Spark性能优化与功能增强 | Performance optimizations and enhancements for Hadoop/Spark |
并行化机器学习和数据挖掘算法 | Parallel algorithms for machine learning and data mining |
AutoML自动化机器学习 | Automated Machine Learning |
AI4Sys基于AI的系统优化 | AI4Sys AI-based System Optimizations |
大规模文本语义分析挖掘 | Large-scale semantic analysis of text mining |
大数据行业应用 | Application of big data industry |
研究项目
近期承担的研究项目 | Recent Research Projects |
---|---|
24.中药分子标识研究及中药智慧云信息平台建设 |
24.Study on Herb Molecular Markers & Chinese Herb Cloud Information Platform |
国家重点研发计划项目课题(2019YFC1711000), 2020-2022 |
National Key R&D Program of China(2019YFC1711000), 2020-2022 |
23.大数据计算的混合编程环境与大数据分析处理系统支撑平台 |
23.Hybrid Programming Environment & Platform for Big Data Analytics & Processing |
国家自然基金重点课题(项目号U181461), 2019-2022 |
China NSF Research Program(#U181461), 2019-2022 |
22.跨平台统一大数据分析处理与可视化编程系统平台 |
22.Cross-platform Big Data Analytic & Processing & Virtual Programming Platform |
江苏省科技厅重点项目(项目号BE2017155), 2017-2020 |
Jiangsu Province Science & Tech Research Program(# BE2017155), 2017-2020 |
21.大数据OLAP分析引擎及Flink实时计算技术 |
21.OLAP Analytic Engine & Flink Real-time Computation for Big Data |
华为合作项目, 2019-2020 |
Huawei, 2019-2020 |
20.面向聚集类查询的近似查询处理 |
20.Approximate Query for Aggregation-type Queries |
华为合作项目, 2020-2021 |
Huawei, 2020-2021 |
19.分布式层次化文件系统的缓存框架研究 |
19.Research on Cache Framework on Distributed File Systems |
中国博士后科学基金特别资助(站中), 2019-2020 |
China Postdoc Foundation Special Grant, 2019-2020 |
18. AutoML自动化机器学习与AI4Sys验证应用研究 |
18.Automated Machine Learning & AI for System Research |
江苏鸿程大数据研究院, 2019-2020 |
Jiangsu Hongcheng Big Data, 2019-2020 |
17.AutoML算法平台及其应用 |
17.AutoML Algorithms,Platform & Applications |
华为合作项目, 2018-2020 |
Huawei, 2018-2020 |
16.Spark Shuffle机制优化的研究与开发 |
16.Research and Development on Spark Shuffle Optimization |
字节跳动网络技术有限公司, 2018-2019 |
ByteDance.Inc, 2018-2019 |
15.分布式文件系统通用化性能评测与缓存调度方法研究 |
15.Unified Benchmarking Framework and Cache Optimization for Distributed File Systems |
国家自然科学基金青年基金(项目号61702254), 2018-2020 |
National Natural Science Foundation of China(#61702254), 2018-2020 |
14.面向分布式文件系统的统一性能评测与缓存调度优化关键技术研究 |
14.Distributed file system unified performance evaluation and cache optimization |
江苏省自然科学基金青年基金(项目号BK20170651), 2017-2020 |
National Natural Science Foundation of Jiangsu Province(#BK20170651), 2017-2020 |
13.跨平台统一大数据分析处理与可视化编程系统平台 |
13.Unified Big Data Analytic Platform & Visual Programming System |
江苏省科技厅重点项目(项目号BE2017155), 2017-2020 |
Jiangsu Province Science & Tech Research Program(# BE2017155), 2017-2020 |
12.证券行情数据回放系统与统一大数据分析平台 |
12.Securities Market Data Replay System & Unified Big Data Analytic Platform |
华泰证券, 2017-2018 |
Huatai, 2017-2018 |
11.基于Alluxio的多HDFS NameNode路由选择和热数据缓存 |
11.Multiple HDFS NameNode & Hot Data Cache Based on Alluxio |
苏宁云商, 2017 |
Suning, 2017 |
10.大数据机器学习与数据分析统一编程模型与关键技术 |
10.Unified Programming Model and Key Techniquesk |
国家自然科学基金面上项目(项目号615722), 2016-2019 |
China National Science Foundation Research Grant(#61572250), 2016-2019 |
9.大规模软件结构智能化分析平台与并行化算法 |
9.Intelligent Platform and Parallel Algorithms for Large-Scale Software Structure Analysis |
华为, 2015-2016 |
Huawei,2015-2016 |
8.大数据分析计算统一编程框架与软件平台 |
8.Unified Programming Framework and Software Platform for Big Data Analytics |
江苏省科技支撑项目, 2014-2017 |
江苏省科技支撑项目, 2014-2017 |
7.面向大数据的媒体内容分析与关联语义挖掘研究 |
7.Research on Big Media Data Content Analysis & Associated Semantic Mining |
国家自然科学基金专项基金项目(项目号61223003), 2013-2016 |
China National Science Foundation Special Research Grant(#61223003), 2013-2016 |
6.Apache Spark 与 Tachyon优化与功能增强 |
6.Optimization and Enhancement for Apache Spark and Tachyon |
UC Berkeley AMP实验室开源联合研究项目, 2014-2015 |
UC Berkeley AMP Lab Joint Open Source Research Project, 2014-2015 |
5.大规模中文文本语义分析与医疗文本挖掘 |
5.Large Scale Chinese Text Semantic Analysis and Medical Record Mining |
美国Intel Labs大学研究资助项目, 2013-2014 |
USA Intel Labs URO Funding, 2013-2014 |
4.HBase二级索引与查询技术研究 |
4.Secondary Index and Query for HBase |
中兴通讯, 2013-2014 |
ZTE, 2013-2014 |
3.Gradient Boosting决策树Spark并行化训练算法研究 |
3.Gradient Boosting Decision Tree Parallel Training Algorithm with Spark |
百度主题研究项目, 2013-2014 |
Baidu Research Project, 2013-2014 |
2.复杂结构的精确Web信息抽取集成模型与关键技术研究 |
2.Research on Model and Techniques for Web Info Extraction & Integration |
国家自然科学基金面上项目(项目号61072152), 2011-2013 |
China National Science Foundation Research Grant(#61072152) , 2011-2013 |
1.精确信息定制服务Web信息抽取集成通用引擎与服务平台 |
1.Accurate Web Info Extraction and Integration Engine and Service Platform |
江苏省科技支撑计划项目(项目号BE2011172), 2011-2013 |
Jiangsu Province Science & Technology Research Grant (#BE2011172), 2011-2013 |