一般认为,所谓大数据是区别于过去的海量数据等概念而言的。随着当前社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用,互联网中越来越多的信息是半结构化甚至非结构化数据。大数据计算服务的目的,就是对当前互联网领域占据80%以上的非结构化和半结构化数据进行智能分析,并且实时地将计算结果通过网络反馈给终端用户。Kim等认为,大数据技术属于第五代决策分析技术:20世纪60年代的数据处理技术,20世纪七八十年代的信息应用,20世纪90年代的决策支持模型,2000年后的数据仓库和数据挖掘技术,直到当前的大数据技术。现在大数据时代刚刚开始,大部分相关技术和分析应用仅仅是从2010年前后才开始出现。本文主要对大数据的相关理论进行简要概述。
王建冬: 博士、研究员,国家信息中心大数据发展部规划与应用处处长,入选首期国家发改委“发改英才”培养计划。毕业于北京大学,主要从事大数据战略等研究。发表论文70余篇,出版专著5部。主持国家社科基金项目1项、省部级课题20余项,主持或参与全国一体化大数据中心、粤港澳大湾区大数据中心等多个国家级项目顶层设计。
易成岐: 博士、副研究员,国家信息中心大数据发展部规划与应用处干部,主要从事大数据支撑政府决策、社交网络分析等研究。发表论文40余篇,授权发明专利5项,出版专著1部。目前主持国家社科基金青年项目1项,曾参与国家科技支撑计划、国家自然科学基金项目、国家发改委有关司局委托的多项研究课题。主要从事大数据、社会网络分析、信息传播等领域研究,参与过国家公益类科研专项、国家科技支撑计划、国家242信息安全计划、国家发展改革委专项课题等重大科研专项,主持国家社科基金青年项目1项,参与多个国家级大数据领域系统产品研发。在国内外重要学术期刊和会议上发表SCI、EI等论文20余篇,申请发明专利5项,合著外文著作2部。