文章详细页面

从大数据到数据新闻
在线阅读 收藏

什么是大数据?IBM公司最早提出了大数据的“4V”概念,即Volume(海量的数据),Velocity(快速处理、快速搜集),Variety(多样),Value(价值)。目前,对大数据较为普遍的看法主要集中于以下四个方面。

第一,部分人认为现在的数据量越来越大。现在的数据主要有两个来源:传统数据来源和新型数据来源。传统数据包括政府统计机构、证券机构、银行、传统媒体等每天采集、发布的数据;新型数据则包括互联网、移动媒体、物联网、智能家居、生物工程等产生的数据。就目前来看,传统数据来源生产的数据对我们并不具有挑战性,在技术和认知层面人们有能力处理这些数据,新型数据来源生成的数据才导致了当前的数据爆炸。从这个意义上讲,现在的数据量确实是越来越大,并且呈几何级速度增加。

第二,一些人认为数据量越大越好。就抽样误差和样本量的关系而言,数据量越大越好。在研究中,抽取的样本与研究的总体或多或少存在差别,样本不等于总体,二者之间的差别叫作误差。这个误差有两个来源,一个来源是抽样过程中的随机误差,它会使对总体的估测不够精确。抽样误差可以计算,当样本量越大时,抽样误差越低,预测的精确度也会越高,样本的增加过程就是从小数据到大数据的过程。因此从这一方面来说,数据量越大越好。但是在另一个误差来源——系统误差中,并不是数据越多越好。系统误差无法计算,也与数据量大小无关,也许数据量越大,系统偏差越大。只要不是总体数据,都会存在偏差,这个偏差大多是系统偏差。大数据带来了精确,但是不能保证数据不存在系统性偏差。

第三,部分人认为数据信息特征值越来越丰富。数据至少是一个二维的物件,一个维度是它记录的个案(如网民访问的网页),另一个维度是它记录的每一个个案的特征值,就是它的信息的丰富程度。很多人都认为现在数据信息越来越丰富,但实际情况是信息特征值的丰富程度越来越低。一个数据就是一个二维表,每一行显示的是一个个体,每一列显示的是个体的特征,如年龄、性别、教育程度、个人兴趣爱好、平时使用习惯、旅行习惯、朋友个数等信息。传统调查的成本很高,1份调查问卷经常有10页、20页之多,通过传统调查获得的数据我们把它叫作胖数据(fat data),高度有限,宽度极大。理想的大数据也是一个二维表,这个表跟所说的传统的表相比,宽度一样,但是高度可以无穷大,即理想状态下的海量个案。但实际上,我们现在的大数据并不都是无限高,极少的网站有这些数据。例如“百度”获得的搜索数据,第一显示用户的IP地址,第二显示用户输入的关键词,第三显示用户搜索的时间,第四显示用户点击进入的网页地址。但是,由于现在IP地址都是不够用的,很多时候大家用的都是动态的IP地址,一个IP地址上每一次行为的实施者不一定是同一个人,这就造成刚才讲的系统误差。随机误差,我们可以通过公式计算出来,但是我们无法知道系统误差是多少,也没有办法传达给用户。

第四,很多人认为处理大数据的技术已经成熟,但其实处理数据的技术与数据的发展规模之间的差距是与日俱增的,现阶段大数据处理技术并不成熟。所谓技术成熟应涉及三个方面:存储、提取和统计分析。在数据存储过程中首先要考虑数据有多大。目前一个大型网站一天的数据大概是1PB1025077,1PB=1024TB,1TB=1024GB。在分析数据时需要将数据读到内存里,而现在比较强大的计算机内存可能只有32GB、64GB。按照这一单位换算,在将数据读到内存这一过程中就需要大量的时间,因此数据处理速度较慢。虽然现在有平行计算和各种各样的管理软件,能够在一定程度上提高效率,但仍然不能解决数据读取的基本问题。与存储类似,在数据提取层面,由于数据量过大,因此在提取过程中同样需要花费很长时间。在数据分析层面,现在用以研究大数据的统计分析方法都是经典的统计分析方法,这一方法从19世纪70年代、80年代开始,一直发展到20世纪20年代初得以完成。我们现在用的工具都是已有80年到120年、130年历史的工具,这些工具具有极高的稳定性且较为成熟,但它们是为分析小数据制作的,真正适用于大数据统计分析的工具还处在初期开发阶段。

简单对大数据做个总结:大数据正在发生,我们面临着海量数据,但是我们目前对大数据的了解、处理大数据的能力还处在早期阶段。

下面介绍一下数据新闻。我们现在讲的数据新闻并不是随着大数据产生的。数据新闻的发展主要经历了以下几个阶段:第一阶段,20世纪70年代的精确新闻(precision journalism)。精确新闻是一个目标非常明确的专业课程,它关注媒体如何用精确的方式将社会科学研究的结果(如民意测验、总统选举和各种社会调查等)准确告知读者。这一课程主要让记者学习、了解社会调查方法,在新闻报道中如实、准确报告,侧重新闻写作层面训练。第二阶段,出现了三种类型数据新闻形式,即20世纪80年代的电脑辅助报道(computer assistant reporting,CAR)、20世纪90年代的数据库新闻(data base journalism,DBJ)、21世纪初期的数据驱动新闻(data driven journalism,DDJ)。这三种新闻类型强调数据分析,注重通过数据寻找采访线索,通过数据比照寻找确凿证据。第三阶段,即数据可视化新闻,可视化是一种艺术展现,强调形象、简化、互动。三个阶段的新闻类型之间并不是取代关系,每一个时代都在历史基础上加入了新的内容,将三个阶段的5种形式合并在一起,就是我们现在所谓的数据新闻。数据新闻虽然强调图像,但是可视化并不是其全部含义,我们在看待数据新闻时不能将其发展历史中的传统意义丢掉。数据新闻与大数据基本上是独立发展的,但是,我们也不要排斥大数据提供的各种工具、数据来源,两者结合才可以使数据新闻发展得更好。

比较三个阶段数据新闻的形式,最早的精确新闻强调写作时要正确报道调查的方法与细节。电脑辅助报道、数据库新闻、数据驱动新闻侧重采访,强调的不是跟人采访,而是采访数据库,必要的时候也会采访一些人,但是这些个人采访仅仅是为了补充、说明、比照数据分析结果,数据本身才是新闻的主体。这一阶段的数据新闻在今天被大多数人忽视。第三个阶段,在数据可视化新闻发展过程中,人们对于可视化的过度强调造成了对数据新闻的狭隘理解,这是在制作数据新闻时需要引起我们注意的地方。

帮助中心电脑版