摘要
什么是大数据?IBM公司最早提出了大数据的“4V”概念,即Volume(海量的数据),Velocity(快速处理、快速搜集),Variety(多样),Value(价值)。目前,对大数据较为普遍的看法主要集中于以下四个方面。第一,部分人认为现在的数据量越来越大。现在的数据主要有两个来源:传统数据来源和新型数据来源。传统数据包括政府统计机构、证券机构、银行、传统媒体等每天采集、发布的数据;新型数据则包括互联网、移动媒体、物联网、智能家居、生物工程等产生的数据。就目前来看,传统数据来源生产...
什么是大数据?IBM公司最早提出了大数据的“4V”概念,即Volume(海量的数据),Velocity(快速处理、快速搜集),Variety(多样),Value(价值)。目前,对大数据较为普遍的看法主要集中于以下四个方面。第一,部分人认为现在的数据量越来越大。现在的数据主要有两个来源:传统数据来源和新型数据来源。传统数据包括政府统计机构、证券机构、银行、传统媒体等每天采集、发布的数据;新型数据则包括互联网、移动媒体、物联网、智能家居、生物工程等产生的数据。就目前来看,传统数据来源生产的数据对我们并不具有挑战性,在技术和认知层面人们有能力处理这些数据,新型数据来源生成的数据才导致了当前的数据爆炸。从这个意义上讲,现在的数据量确实是越来越大,并且呈几何级速度增加。第二,一些人认为数据量越大越好。就抽样误差和样本量的关系而言,数据量越大越好。在研究中,抽取的样本与研究的总体或多或少存在差别,样本不等于总体,二者之间的差别叫作误差。这个误差有两个来源,一个来源是抽样过程中的随机误差,它会使对总体的估测不够精确。抽样误差可以计算,当样本量越大时,抽样误差越低,预测的精确度也会越高,样本的增加过程
<<
>>
作者简介
祝建华: 祝建华,香港城市大学媒体与传播学系教授。
相关报告