随着大数据时代的来临以及大数据在各领域的广泛应用,科学发现的模式将发生重大变化。继实验科学、理论科学、计算科学之后出现了被称为“数据密集型科学”的第四种科学发现新模式,采集、存储、管理、分析和可视化数据成为科学研究的新手段和新流程。这一科学发现新模式强调数据作为科学发现的基础,并以数据为中心和驱动、基于对海量数据的处理和分析去发现新知识为基本特征。如中科院生物所破解埃博拉病毒入侵机制;海量DNA数据认识生命,在1万亿个事例中发现上帝粒子-希格斯粒子,全球碳监测网络,ARIGO海洋浮标,科研众筹(FOLDIT、GALAXYZOO、POLYMATH)等。 [2]
科学大数据的发展
科学大数据面临的问题
科学大数据的发展面临着科学数据中心建设薄弱、管理水平低、服务不规范、法规不完善、数据资源分散、数据质量参差不齐、全球影响力弱、数据流向国外、重复投资建设、核心技术受制于人、高水平复合型人才缺乏等问题。 [1]
科学大数据对IT系统的需求与挑战
行业特点:
1、数据量大且变化快
2、分布式异构多源
3、数据多维关联
4、计算分析一体化
5、跨区域协作
系统需求:
1、分布式异构多源数据存储管理
2、PB级/EB级数据处理能力
3、实时计算处理能力:亿级数据毫秒级查询
4、“高性能计算+数据分析挖掘”一体化融合
5、面向数据处理分析全流程提供服务接口
6、实现数据的多维度可视化
7、实现国际化分布式计算环境
8、灵活支持多种计算模式 [1]