文章详细页面

从大数据到数据新闻
在线阅读

祝建华

祝建华,长江学者,香港城市大学媒体与传播学系教授、传播与新媒体硕士专业主任。自1998年至今任职于香港城市大学媒体与传播学系,为传播与新媒体硕士专业创始人。先后获得国际传播学会等颁发的7项学术荣誉奖,现兼任《美国人类传播研究》等3家SSCI期刊编委、北京大学网络实验室访问教授、中国科技大学客座教授等。

祝建华:各位同学,大家好!两年前,我给第三届中国传媒领袖大讲堂的学员讲过“数据驱动新闻”。今天,我在之前的演讲主题前再加上一个词“大数据”,从大数据到数据新闻。我主要讲三个方面内容:一、大数据本身,大数据现在非常热,但是热的过程中也存在对它的误解;二、新闻传播的新形式——数据新闻;三、当前的数据新闻实践与存在的问题。

什么是大数据?较早被人们引用的定义是由IBM公司提出的“4V”,即:Volume,海量的数据;Velocity,快速地处理,快速地搜集;Variety,多样;Value,价值,这也是最重要的。

有关大数据的书,我比较熟悉的有三本。第一本叫作《大数据时代》,是两个英国学者写的,主要作者是维克托·迈尔·舍恩伯格(Viktor Mayer-Schönberger)。这本书是由电子科技大学周涛教授和他的学生翻译的。第二本是由一位在美国工作的华人学者涂子沛写的《大数据》。最后一本书是负责主办中关村大数据日的机构——云基地的首席科学家郑毅写的《证析》。这三本书从专业程度上讲是逐步升级的,《大数据时代》是普及版,涂子沛的《大数据》这本书比《大数据时代》要略专业一些,最专业的是郑毅的《证析》。“证析”这个词其实是郑毅自己创造的,对应于英文当中的Analytics,不是Analysis。Web Analytics是最近十几年随着互联网研究的发展兴起的一个词。郑毅觉得把这个词翻译成“分析”会少掉证明、验证、求证的意思,所以译成“证析”。

但是,像我们很多知识门类一样,越专业的可能知名度就越小。这三本书中知名度最高的应该是《大数据时代》。按照我的理解,这本书里讲的故事都是对的,但是其基本观点全是错的。书的第一章讲到大数据给我们带来的变化,有三个观点,一是认为我们有了大数据就不需要再追求样本,只需要有总体就够了;二是认为不需要有精确的数据,只要有粗糙的数据就够了;三是认为我们不需要去追求事件背后的因果关系,只需要知道相关关系就够了。我想说,这三个基本观点都是错的,是为绝大部分科学领域的学者所不认同的。作者维克托·迈尔·舍恩伯格是记者出身,不是一个科学家,他对什么是精确、什么是粗糙、什么是因果关系、什么是样本、什么是总体这些基本概念没有理解清楚。我今天讲大数据的四个真相与误解,就是把这本书的几个基本观点加上大家对大数据的误解抽离出来,简单地对现在流行的大数据的四种看法做一解释。

第一个观点就是现在的数据量越来越大。什么叫“数据量”,一个数据最起码是二维的东西。一个维度就是讲这个数据里面记录的个案,比如网民访问新浪微博或者淘宝网站,这是一个海量数据,每个人都在贡献流量,每个人每次访问网页都会被作为一条记录记下来。那么这个个案绝对是在与日俱增的,以数亿、数十亿、数百亿甚至数千亿的量在被记录,比如说像光棍节那天,淘宝的点击量可能是上百亿、上千亿的。这是我对《大数据时代》这本书比较认同的一个观点。第二个观点是数据量越大越好,大就是不同。绝对来讲,数据量是越大越好。但是,经济学里有一个边际效益衰减概念,数量的增加给我们带来的效果、效益或者价值也可能是逐步衰减的。

第三个观点是数据起码是一个二维的物件,一个维度是指它记录的个案多,没有人会反对这个说法。数据量的另外一个含义,就是它记录的每一个个案的特征值,这就是它的信息的丰富程度。像《大数据时代》的作者,或者其他的很多人都认为,我们的数据信息特征值越来越丰富了。其实真正在做大数据研究的人,真正了解大数据的人知道,信息的特征值其实是越来越少。

第四个观点就是处理大数据的技术。尤其是做大数据的、以计算机科学与技术为主的学者或研究人员会告诉你,技术已经不成问题了,事实是技术跟数据的发展规模之间的差距与日俱增,不是在逐渐减少。数据量为什么越来越大?我们的数据,笼统地来说,有两个来源——传统来源与最新的来源。传统来源的数据有各种各样的来源:政府统计机构、金融业、工业到农业到证券股市银行等,天文、地理、交通、运输,包括我们传统媒体每天都在生产数据。那么,这种数据,50年前就有,30年前也有,10年前有,今天有。随着经济规模的扩大,社会人口的增长,自然现象逐渐被我们掌握,数据量在增加。但是它们的增加,仅仅是一个量的增加。如果仅仅就由这些机构采集、发布的数据来说的话,我们今天的大数据的量其实还没有达到我们今天面临的这种困境。在技术上和认知上,我们有足够的能力来解决这些数据问题。

问题是所有数据的增长全部来自这些新型的数据。互联网是大家首先想到的第一个来源。移动网,我们每个人都在用。大部分人的一个共识就是,移动网很快就会超过互联网,成为发展跟使用最快的一个数据来源。比如媒体实业界,尤其就广电业来讲,现在越来越开始关注智能家居。除了电视、音响以外,包括游戏、家庭的电器设施以及健身器材等,现在越来越普遍地被网络化,被整合到“智能家居网”当中,统管这些家居网的经常是“智能网关”等。这些名词现在在广电行业中是非常受关注的。一年前他们还在讲“三网融合”,现在“三网融合”已经被认为是更大概念的智能家居的一部分,而智能家居产生的数据量也是前所未有的。物联网的概念已经有好几年了,而且跟现在人的来往、跟媒体的使用的关系也越来越密切。除此以外,生物工程、DNA等这些数据量都是前所未有的。所有这些新型的数据来源才导致了我们看到的数据爆炸。“数据爆炸”这个概念跟我们以前讲的信息爆炸或知识爆炸有类似的地方,更有物理意义上的概念。因为知识和信息只是理念上的东西,数据需要有物理的存储设备和处理的硬件和软件。从这个意义上讲,数据量越来越大,而且它的量的增加不是一个数学增加,而是呈几何级数增加。

数据为什么会越来越大,我举例解释。电视收视率不是今天才有的,它远远早于互联网。电视收视率的搜集跟分析,从来都是一个大数据行业。电视收视率经历了三个阶段:20世纪五六十年代,包括70年代,那时候完全是靠人工,用日记的方法人工记录。比如在上海,或在任何一个大都市,假定这个大都市有上千万人口,有300万、400万、500万个家庭。在日记调查期间,无非通过随机抽样的方法,抽取比如600户、800户、1000户,向这几百户或上千户家庭里5岁以上的成员,每个人发一个问卷表,让他们记录每天收看电视频道的时间。比如我今天早晨7点起来,看了1个小时中央一套的《朝闻天下》,那我就在这个日记上画4个格。这个调查表每行代表一个频道,当时我们做的时候,在上海一共有9个频道,包括CCTV-1、CCTV-2、CCTV-3与上海市的6个频道。一天有24小时,15分钟为一个单位,一共有96列。一页代表一天。如果你早上7点到8点,看了中央一套,那你就在7点到8点这4个格下面画一下。中午12点的时候,我看了半个小时的《东方卫视》,就画两个格。晚上7点钟以后,我又看了CCTV-1,然后又画了两个格,就靠这种方法。为什么15分钟一格?你想一下,如果要1分钟一格的话,这个表就要1440列,根本没法打印,96列已经是高清打印机才能够打印出来的。那么按照这样的规模去估算的话,有1000个家庭,平均每个家庭3个人的话,就是3000人。假定所有的时间里都有活动,那么数据量有96000条,存到一个文件里,所以这个不能算是大数据。

到了80年代,出现了一种机器监测,翻译成“人员测仪表”,首先在英国,然后到美国,到21世纪初被引进到中国。这个机器就像我们现在用的机顶盒,它是接到你的电视里面的。如果假定这个样本还是这么多的话,用人员记录仪,时间精度就可以大量提高了。所以一般情况下,时间精度可以提高到15秒,从15分钟到15秒,精度大幅提升。15秒这个单位,在当时,大家觉得够精确了,因为电视节目都是以分钟为单位的,如30分钟的新闻联播,60分钟的电视连续剧等。原来的广告,15秒是少见的短广告,30秒是常见的,长的是1分钟。大家想一下,你现在看到的广告,很多是5秒的,因为广告费用越来越高,很过厂商希望多做5秒钟的短广告。

现在又发展了,我们都是在跟数字电视或者数码电视打交道。在国外叫Digital TV。现在在我国传输的网络基本上还是单向的,你能下载高清电视,但是你的电视机不能反馈,你所有的收视行为是反馈不到电视台或者网络公司的。但在国外,大部分地方都是双向的。那这种双向的电视系统不再需要做抽样,就是总体了。当你在下载电视节目的时候,你下载的所有记录也就立刻反馈到电视台或者网络公司的服务器上。假定这个城市有300万户,300万户就是总体了,而且时间的精度也可以大概精确到毫秒,不是1毫秒,而是能精确到10毫秒。毫无疑问,由于这个数据从1000户到总体,从样本到总体,扩大了近3000倍,然后时间单位又扩大了近100倍,所以现在每天搜集的数据量是人员记录表的450万倍,这个就是大数据。数据为什么会大?因为我们对总体的抓取量和时间单位精确度的提高等,会带来海量的数据。

第二个流行的观点是数据量越大越好、越多越好。对不对?自然对。这里讲的是抽样误差和样本量的关系。如果你抽一个样本,这个样本跟要研究的总体,多多少少总归有一点差别,样本不等于总体,那么它们之间的差别叫作误差。这个误差有两个来源,一个是抽样过程中的随机误差。简单地说,随机误差使得你对总体的估测变得不够精确。大数据带给我们的是精确,也就是说随着样本的增加,从小数据到大数据过程中,获得了精确度的提高,但这个提高不是直线的。除了这种随机误差以外,还有一种叫系统误差,系统误差是没法用计算方法来计算的,也跟数据量无关。大数据,只要不是总体数据,都有偏差。这个偏差多半是系统偏差,也许数据量越大,这个偏差越有害,所以我说《大数据时代》这本书的基本观点是错的。它说大数据时代我们只需要粗糙的数据,不需要精确的数据,其实这话讲倒了。大数据给我们的一定是精确,但是不能保证我们的数据没有系统性的偏差。

在美国,有一些长期做商业智能的公司,提出了“medium data”(中数据),它们认为中数据的性价比最高。它们认为,在10万以下的叫小数据,10万到千万的叫中数据,千万以上的叫大数据。当然,这种划分都是人为的,根据不同的需要你可以随便切。按我们电视收视率来讲的话,1万个就可以是中数据了。因为我们讲的是1万个家庭,每个家庭平均有3个人,所以1万个家庭已经有3万人。数据越大,不是一定越好。因为从精确程度上来讲,它在无限被提高,但对成本、资源、设备的要求提高了以后,同时还会带来很多意想不到的误差。为什么现在的数据并不丰富?我要给大家讲一下数据的基础知识。一个数据其实就是一个二维的表格,每一行代表的是一个个人,比如第一列就是记录了每一个人的网络ID,学生编号,身份证,手机号,也就是网民的用户账号等。每一列从X1、X2、XJ到Y1、Y2、YK等,记录的是个人的特征、年龄、性别、教育程度、个人兴趣爱好、平时使用习惯、旅行习惯、朋友个数等信息。做传统调查成本很高,每一次好不容易抽到一个个人,问卷经常有10页、20页,调查半小时是很经常的。我见到过的一个最长的调查,大概给你一些毛巾、香皂,然后就问3个小时,被调查的人已经完全麻木了,你问什么都是对,或者从头到尾都是no,质量是另外一回事,但以个案的数字来讲是很丰富的,这种数据我把它叫作胖数据,fat data,高度有限,宽度极大。我们理想的大数据是什么?也是一个二维的表,这个表跟上面的表相比,宽度一样宽,但是长度可以是无限长,这个量可以是无穷大。所谓无穷大,比如人口总数,中国多少亿,印度多少亿,全球多少亿,而且每天的事情在发展,所以,这是理想状态的海量的个案、海量的变量。但是,实际上,大家千万不要以为,我们现在的大数据都是长成这样的,其实不然,极少的网站有这样的数据,淘宝有这样的数据,百度没有这样的数据,腾讯夹在淘宝跟百度之间,其他绝大部分的网站都是这种类型的数据,就是高度无限高,但是特征值或变量的个数非常少。为什么百度没有?百度拿到的是搜索数据,搜索能够告诉你的信息:第一是你的IP地址,相当于我们的ID;第二,你输入的关键词;第三,你搜索的时间;第四,它返回的URL,你点进的URL。你在别的地方的一切,百度都不知道的。我们看的数据差不多就是两三列,第一列基本上是没有意义的,一个IP地址。由于现在IP地址都是不够的,所以大家用的都是动态的,这一分钟是你的,下一分钟就是另外一个人的。那些做数据挖掘的IT公司,下了极大的功夫,希望通过你的其他行为的特征,来判断一个IP地址上面每一次行为是不是同一个人,不同的IP地址背后是不是同一个人。这种事情一直在做,我们有时候也在做这种事。但是这种事没有100%准的,就会造成系统误差。系统误差有各种来源,其中一个来源就是,我们并不知道真正的用户是谁,我们跟进大量的数据去推测,我们不知道这个推测是对还是错。这就是系统误差的一个可怕的地方。随机误差,我们可以用公式来计算多大多小,我知道我的误差有多大。系统误差不知道是多少,我也没有办法传达给我的用户,用户看了这个值以后,一看这是大数据上挖出来的东西,大家就信了,这才是问题。现在讲大数据的人都把这个作为现实去讲,我的一个疑惑就是,这些写大数据书的人、讲大数据的人,难道他们从来没见过大数据是长成什么样的吗?有两种可能,少数人真的见过大数据,但他不愿告诉你,真的大数据还是很悲惨的。大部分在讲大数据的人,这一辈子没见过大数据是什么样子。

大数据处理技术其实并不成熟,所谓的成熟应该涉及三个方面,存储、提取和最后的统计分析。我只讲存储,因为这是物理意义上讲的硬件,大家能感受到。一个大型网站,还不要到淘宝、百度、腾讯这种规模,比如旅游、银行、点评这种网站,它一天的数据差不多就是1PB,PB是TB的1000倍。1TB是什么?现在大家的硬盘,较大的硬盘大概是4~5TB,一天就要200~250块硬盘去装一天的数据。到分析的时候,你的数据要读到你的内存里面去,你们现在的电脑的内存标配是4G,稍微好一点的是8G,还可以加到32GB、64GB。那时候,你内存的钱已经是你其他所有钱的几十倍了,你仅仅是一个TB的几十分之一,是你一天的数据的零头的零头。内存的大小取决于你对数据运算的速度。所以,真正看到大数据的人才知道,我们现在要处理大数据其实是很慢的,就是因为要把这个数据读到内存去的话是很慢的。在一个大数据会议上,中国联通数据中心的主管跟大家介绍他们的数据量大到什么程度,每隔40天要把第41天的数据删掉。中国联通没有足够的数据存储中心来存吗?他说有两个问题,第一,确实没有办法无限地增加数据存储量。他们现在的规模就是三四十天,已经运行了十多年。如果你要把所有的历史数据都保存下来的话,就是要盖几千个现在的数据中心。第二,这些数据保存下来等到你哪一天想到要找它的话,找不回来。理论上绝对找得回来,但可能要几年时间才能查到,所以他们不是把所有数据简单地就删掉了,要做很多压缩、提取、简化,然后把大数据变成小数据,然后把不要的数据删掉。联通是中国第二大移动公司,仅次于移动,比中国电信规模大一点,是一家上市公司,钱、硬件对它来说其实不是问题,但它受到的制约有能耗的制约、空间的制约,还面临实际应用的问题。这就是为什么我们现在的存储量跟不上数据发展的量,不是说我们做不到,而是在经济上、在实用价值上没有必要这么做,这是真相,这是《大数据时代》的作者不告诉你的,他也不知道。

我们讲有存储、有提取、有分析,我们现在研究大数据所用的统计分析方法还都是经典的统计分析方法,从19世纪七八十年代开始发展到20世纪初,到1920年已经完成。我们现在用的工具都是有80年至一百二三十年历史的工具,这些工具都是好工具,非常稳定成熟,但是它们是为小数据而制作的。真正适用于大数据的工具现在还在襁褓之中,还在开发之中。2011年《科学》杂志发表了一篇分析大数据的相关计算、大数据条件下相关系数的文章。相关系数是卡尔·皮尔逊提出的,我们现在用的还是这种方法,现在还在被各种人鉴定、批判、挑战、完善,如果这种方法能够被普遍接受的话,也就是说现在大数据时代的研究工具相当于1890年时的研究工具,绝对不是说我们现在从硬件到软件到方法都已经完全具备了,we’re not ready yet。

大数据用来做预测的研究个案很多。Google 用search的关键词来做对于流感的预测,2009年有一篇文章轰动全球。这几年大家不断地用这种方法在预测,一开始觉得很准确,现在大家慢慢知道其实它不准的时候远远多于准的时候。大数据是真的正在发生,我们面临的是海量数据。但是对大数据的了解、处理大数据的能力,其实还处在早期。

实际上数据新闻不是随着大数据产生的,两年前的这个月,我在这边讲数据驱动新闻,那个时候大数据还不是一个流行词,但在国外已经讲了一段时间了。数据新闻大概走过了这么几个阶段:20世纪70年代叫精确新闻,即Precision Journalism,80年代叫作Computer Assistant Reporting,到90年代叫作Data Base Journalism,到2000年就是我上次讲的时候叫Data Driven Journalism。现在讲的数据新闻其实更多的是讲Visualization这部分。当然我想强调一下,它们之间的关系不是一个方式取代前面一个方式,只是在每一个时代又加入了新的内容,把这五种合在一起也许就是我们现在讲的数据新闻。

所以数据新闻不仅仅是可视化新闻,虽然现在可视化新闻最火,也许这恰恰是现在的一个问题,很多记者误以为数据就是可视化新闻,把前面的这些传统都扔掉了,但数据新闻基本上跟大数据是独立发展的。当然,我们没有必要排斥大数据所提供的各种工具、数据来源,两者的结合可以使得我们的数据新闻做得更好。

Precision Journalism是Philip Meyer于1973年写的一本书,它是针对民意测验、总统选举和各种社会调查产生的大量结果,媒体自然要报道,但是在报道的过程中,因为涉及调查方法有关的问题,怎么把这些社会科学研究的结果用精确的方法准确地告诉读者,这是Precision Journalism一直关注的,所以它是一个目标非常明确的专业的课程,这个课程主要就是训练大家学习社会调查方法、了解社会调查方法,在写新闻报道的时候如何如实、准确地报告。比如在报道的时候,你必须要提供技术性的细节,再调查是不是有人赞助,有人赞助的话必须要报告,调查的时间、地点写清楚,调查的对象要写得很明确,是成人居民、常住居民还是选民,这些概念互相之间有交叉但是又有差别,不同的研究总体、研究对象,你的结果也许是不一样的。调查方法可能是最重要的,样本的来源是随机的还是便利的,是街上拦截的还是在餐馆、机场、车站调查的,抑或通过随机方法找到门牌号或电话号码调查的,这是会影响研究结果的。随机调查也有误差,误差来自抽样误差。如果你用便利方法,除了抽样误差外,还有系统误差。例如,你去机场调查的都是坐飞机的人,一定是有钱的、时间稀缺的人。调查的人数一定要报告,因为这是你来计算抽样误差的一个基本的信息。访问成功率很重要,你访问1000人到底是你成功访问1000人,还是只成功访问了其中的80个人,那差别就大了。成功率是怎么计算的,谁被算进去、谁不算,美国民意研究协会都有专门的公式。你的问题是在问卷的上面出现的,还是中间出现的,这些信息都要提供。这基本上构成我们讲的Precision Journalism里面的主体。所以它是非常专业的。到现在为止,这种信息对我们传媒专业的同学来讲,仍然是挑战,因为你必须要了解这种技术,最好是做过几次调查,就知道好的调查跟差的调查完成的难度相差很大。强调的是所有的信息要公开、透明,目的是要防止误导,也防止有意操纵、控制。

从20世纪80年代开始,电脑辅助报告,即CAR(Computer Assistant Reporting)开始被充分利用,如通过电脑软件怎么来写作、采访、编辑等。到了90年代又出现Data Base Journalism,这也是互联网兴起以前已经有的。这是通过电话线联网,以政府为主开放的各种各样的数据库。一个政府的预案被通过了,哪些人是支持的,哪些人是反对的,他们这些人背后的家庭、投资跟这些被通过的预案涉及的公司之间千丝万缕的联系等,都是可以通过这种方式来挖出的。所以这种电脑辅助新闻、数据库新闻,一直到我上次讲的DDJ(Data Driven Journalism),这三者其实讲的是一个问题,就是充分利用现在的网络数据,来寻找新闻采访的线索,或者是寻找故事的背景,通过对数据的分析来写新闻。

新闻的写作制作生产过程一开始是采访,采访以前也许还有选题。采访完了以后有分析,最后是写作和发表。最早的Precision Journalism讲的是写作,要写对,不要将调查的方法与细节弄错。后面讲的从Computer Assistant Reporting到Data Base Journalism到DDJ,其实讲的都是采访,或者是采访前面的选题。当然这个采访不是跟活人采访,主要是跟数据库采访,必要的时候自然也会面访,采访一些个人,这些个人仅仅是为了补充、说明、比照你数据分析的结果,数据本身是新闻的主体。

其实,今天讲数据新闻的人大部分是跳过了这一部分,好像数据新闻就是可视化,就是到网上去抓一些数据。后面这种对数据新闻的理解是非常狭隘的,也是很快就会走到头的。因为可视化是很漂亮、绚丽的,但是你如果没有内容,过一阵大家就腻了。内容从什么地方来?我觉得Data Driven Journalism这个词就强调了新闻是从数据里面来的。

现在讲可视化大概有这么几类,一类是一个可视化的图,也许是静态的,也许是互动的,这个图本身就是一个新闻,叫新闻主体。这可能是数据化程度最高的,或者叫可视化程度最高的新闻。比它低一点的是,主题是一个数据故事,再往下新闻导语是一个数据,最低程度的就是一个插图。这种分类本身没有错和对,每一种都有它的需要,比较重要的是你作为主题也好,作为主体也好,故事在哪儿。我选了几个例子,比如有一张图告诉你中东政局的,这就是一个主体。再比如,上一次人大结束的时候,有用户对李克强的记者招待会进行实时反馈的抓取,这是个大数据工作,它基本上就是一个主体,还有一些补充材料。

比较一下我刚才讲的三大范式,从精确新闻到所谓的CAR到DBJ到DDJ到现在的数据可视化新闻,从表现形式来讲,第一阶段强调文字,现在讲的是图像,而当中这二三十年强调的是数据分析,它最后还是要通过文字和图像来表示的,但当中这个阶段讲的是数据的灵魂。如果各位有志于做数据新闻的话应该要花时间去学习Data Driven Journalism。可视化并不难,而Data Driven Journalism是难的,因为你要知道怎么分析数据。

可视化的应用要适当,不是任何一个东西都要配上一个图。当然各自追求的目的不一样。第一阶段强调准确、严谨、公开透明,第二阶段要探秘,要通过数据去找采访线索,故事在什么地方、线索在什么地方,要深入、要强调,要进行数据比照,保证数据确凿。当然可视化是一种艺术展现,形象、简化、互动等,各自都存在一定的局限。

做数据新闻对大家学习的知识、技能有很多新的挑战,你们现在还来得及,还有机会,要充分利用现在学校的条件。我原来是一个数据可视化盲,艺术素养很差。但最近几年我们跟微软研究院的数据可视化组一起在做项目,我才知道可视化下面分为这两类。微软研究院是全球做可视化研究水平最高的一个机构,研究员没有一个是读艺术出身的,当然不等于他们都是艺术白痴,他们也知道基本的艺术作图技术、构图、颜色搭配等,但主要的工作是把复杂的数据用一种最容易被理解的方法展现出来,通过对比展现,是新闻可视化应该走的方向。

大家反思一下,你们每天在平面媒体、网络看到大量的数据可视化作品,应该能看到很多差距,大部分作品是为展现而展现,为形式而形式,因为这些作品的制作者都是美工,对美工来讲,他们的第一要务是美感,是艺术震撼力。这些作品第一感觉确实很震撼,之后就觉得不过如此,再后来就是审美疲劳。像一些一看上去没有任何震撼力的作品,但是你仔细读会发现很多内容。

嘉宾:大数据的发展一方面为我们的生活提供了便利,但是另一方面会带来一些隐私和国防方面的安全隐患。所以我想请老师能不能从专业的角度来为我们指点迷津,怎么才能解决大数据时代给我们带来的生活上、安全上的危害?

祝建华:你的提问已经把问题都点出来了。现在碰到的就是一对无法协调的矛盾。作为用户,我们希望得到两件东西,第一是便利,第二是安全,这是非常美好的愿望,但事实是鱼与熊掌不可兼得。你要便利一定要牺牲你的隐私,你要最安全的话就是拔掉你的网线,永远不上网。这个矛盾怎么解决?应该是所有的利益相关者坐在一起,达成一定的基本准则。用户是利益相关者,电商希望数据越多越好、隐私越多越好,为此它们愿意买单、愿意提供免费的服务,还有政府,至少是这三方。政府与这两者其实是没有利害冲突的,政府的责任是在用户跟电商或者更广义的数据收集者之间成为一个仲裁者。政府本身又是第三方利益相关者,所以这个问题不是学术问题,是一个政治问题,需要全球人类用共同的智慧来解决这个问题。

嘉宾:老师您好,我们这些学媒体的学的很多都是理论性的东西,应该怎样提高自身能力去适应大数据时代?第二个问题,很多时候收视率调查结果是不一样的,对此您怎么看,或者说在互联网时代有没有一个更公正的第三方利用大数据确保收视率客观公正?

祝建华:后一个问题是电视收视率在大数据媒体的环境下怎么找到各种不同的研究方法与不同指标,我想答案是肯定的,今天的市场不是央视—索福瑞能够垄断的。央视—索福瑞推出一个微博电视指数,与此同时,我知道的就有很多其他的机构也在做类似的数据,因为微博的数据是公开的,每个人都可以拿得到,所以这样的研究慢慢就会出现,多了以后自然方法不一样,结果会不一样,这反而是一个健康的现象。

前面这个问题我想各位更有兴趣。作为学生,我们来参与或者迎接数据新闻时代或者大数据时代,我们应该学习哪些知识?首先,大家要学好定量研究方法,虽然目前定量研究方法讲的还是传统的方法,调查、内容分析、做实验,自然这当中会讲到做传统的统计分析。大数据时代最重要的就是要懂怎么分析,知道统计分析的基本原理以后,自然了解数据。我们的目的不是做分析,是讲数据故事,但讲数据故事必须要知道一些分析的基本原理。其次,在这个基础上,根据个人的兴趣和个人的条件,应该多多少少去学习怎么通过各种现成的工具或者自己写程序来获取网络数据,这方面有很多现成的教程或者视频。现在的网络资源非常多,各种各样的学习机会也多,所以建议大家把眼睛睁得大一点,学会利用各种资源和机会。

');" class="a2">收藏

时间:2014年7月7日上午

地点:上海交通大学闵行校区光彪楼1楼多功能厅

主讲人:祝建华

祝建华

祝建华,长江学者,香港城市大学媒体与传播学系教授、传播与新媒体硕士专业主任。自1998年至今任职于香港城市大学媒体与传播学系,为传播与新媒体硕士专业创始人。先后获得国际传播学会等颁发的7项学术荣誉奖,现兼任《美国人类传播研究》等3家SSCI期刊编委、北京大学网络实验室访问教授、中国科技大学客座教授等。

祝建华:各位同学,大家好!两年前,我给第三届中国传媒领袖大讲堂的学员讲过“数据驱动新闻”。今天,我在之前的演讲主题前再加上一个词“大数据”,从大数据到数据新闻。我主要讲三个方面内容:一、大数据本身,大数据现在非常热,但是热的过程中也存在对它的误解;二、新闻传播的新形式——数据新闻;三、当前的数据新闻实践与存在的问题。

什么是大数据?较早被人们引用的定义是由IBM公司提出的“4V”,即:Volume,海量的数据;Velocity,快速地处理,快速地搜集;Variety,多样;Value,价值,这也是最重要的。

有关大数据的书,我比较熟悉的有三本。第一本叫作《大数据时代》,是两个英国学者写的,主要作者是维克托·迈尔·舍恩伯格(Viktor Mayer-Schönberger)。这本书是由电子科技大学周涛教授和他的学生翻译的。第二本是由一位在美国工作的华人学者涂子沛写的《大数据》。最后一本书是负责主办中关村大数据日的机构——云基地的首席科学家郑毅写的《证析》。这三本书从专业程度上讲是逐步升级的,《大数据时代》是普及版,涂子沛的《大数据》这本书比《大数据时代》要略专业一些,最专业的是郑毅的《证析》。“证析”这个词其实是郑毅自己创造的,对应于英文当中的Analytics,不是Analysis。Web Analytics是最近十几年随着互联网研究的发展兴起的一个词。郑毅觉得把这个词翻译成“分析”会少掉证明、验证、求证的意思,所以译成“证析”。

但是,像我们很多知识门类一样,越专业的可能知名度就越小。这三本书中知名度最高的应该是《大数据时代》。按照我的理解,这本书里讲的故事都是对的,但是其基本观点全是错的。书的第一章讲到大数据给我们带来的变化,有三个观点,一是认为我们有了大数据就不需要再追求样本,只需要有总体就够了;二是认为不需要有精确的数据,只要有粗糙的数据就够了;三是认为我们不需要去追求事件背后的因果关系,只需要知道相关关系就够了。我想说,这三个基本观点都是错的,是为绝大部分科学领域的学者所不认同的。作者维克托·迈尔·舍恩伯格是记者出身,不是一个科学家,他对什么是精确、什么是粗糙、什么是因果关系、什么是样本、什么是总体这些基本概念没有理解清楚。我今天讲大数据的四个真相与误解,就是把这本书的几个基本观点加上大家对大数据的误解抽离出来,简单地对现在流行的大数据的四种看法做一解释。

第一个观点就是现在的数据量越来越大。什么叫“数据量”,一个数据最起码是二维的东西。一个维度就是讲这个数据里面记录的个案,比如网民访问新浪微博或者淘宝网站,这是一个海量数据,每个人都在贡献流量,每个人每次访问网页都会被作为一条记录记下来。那么这个个案绝对是在与日俱增的,以数亿、数十亿、数百亿甚至数千亿的量在被记录,比如说像光棍节那天,淘宝的点击量可能是上百亿、上千亿的。这是我对《大数据时代》这本书比较认同的一个观点。第二个观点是数据量越大越好,大就是不同。绝对来讲,数据量是越大越好。但是,经济学里有一个边际效益衰减概念,数量的增加给我们带来的效果、效益或者价值也可能是逐步衰减的。

第三个观点是数据起码是一个二维的物件,一个维度是指它记录的个案多,没有人会反对这个说法。数据量的另外一个含义,就是它记录的每一个个案的特征值,这就是它的信息的丰富程度。像《大数据时代》的作者,或者其他的很多人都认为,我们的数据信息特征值越来越丰富了。其实真正在做大数据研究的人,真正了解大数据的人知道,信息的特征值其实是越来越少。

第四个观点就是处理大数据的技术。尤其是做大数据的、以计算机科学与技术为主的学者或研究人员会告诉你,技术已经不成问题了,事实是技术跟数据的发展规模之间的差距与日俱增,不是在逐渐减少。数据量为什么越来越大?我们的数据,笼统地来说,有两个来源——传统来源与最新的来源。传统来源的数据有各种各样的来源:政府统计机构、金融业、工业到农业到证券股市银行等,天文、地理、交通、运输,包括我们传统媒体每天都在生产数据。那么,这种数据,50年前就有,30年前也有,10年前有,今天有。随着经济规模的扩大,社会人口的增长,自然现象逐渐被我们掌握,数据量在增加。但是它们的增加,仅仅是一个量的增加。如果仅仅就由这些机构采集、发布的数据来说的话,我们今天的大数据的量其实还没有达到我们今天面临的这种困境。在技术上和认知上,我们有足够的能力来解决这些数据问题。

问题是所有数据的增长全部来自这些新型的数据。互联网是大家首先想到的第一个来源。移动网,我们每个人都在用。大部分人的一个共识就是,移动网很快就会超过互联网,成为发展跟使用最快的一个数据来源。比如媒体实业界,尤其就广电业来讲,现在越来越开始关注智能家居。除了电视、音响以外,包括游戏、家庭的电器设施以及健身器材等,现在越来越普遍地被网络化,被整合到“智能家居网”当中,统管这些家居网的经常是“智能网关”等。这些名词现在在广电行业中是非常受关注的。一年前他们还在讲“三网融合”,现在“三网融合”已经被认为是更大概念的智能家居的一部分,而智能家居产生的数据量也是前所未有的。物联网的概念已经有好几年了,而且跟现在人的来往、跟媒体的使用的关系也越来越密切。除此以外,生物工程、DNA等这些数据量都是前所未有的。所有这些新型的数据来源才导致了我们看到的数据爆炸。“数据爆炸”这个概念跟我们以前讲的信息爆炸或知识爆炸有类似的地方,更有物理意义上的概念。因为知识和信息只是理念上的东西,数据需要有物理的存储设备和处理的硬件和软件。从这个意义上讲,数据量越来越大,而且它的量的增加不是一个数学增加,而是呈几何级数增加。

数据为什么会越来越大,我举例解释。电视收视率不是今天才有的,它远远早于互联网。电视收视率的搜集跟分析,从来都是一个大数据行业。电视收视率经历了三个阶段:20世纪五六十年代,包括70年代,那时候完全是靠人工,用日记的方法人工记录。比如在上海,或在任何一个大都市,假定这个大都市有上千万人口,有300万、400万、500万个家庭。在日记调查期间,无非通过随机抽样的方法,抽取比如600户、800户、1000户,向这几百户或上千户家庭里5岁以上的成员,每个人发一个问卷表,让他们记录每天收看电视频道的时间。比如我今天早晨7点起来,看了1个小时中央一套的《朝闻天下》,那我就在这个日记上画4个格。这个调查表每行代表一个频道,当时我们做的时候,在上海一共有9个频道,包括CCTV-1、CCTV-2、CCTV-3与上海市的6个频道。一天有24小时,15分钟为一个单位,一共有96列。一页代表一天。如果你早上7点到8点,看了中央一套,那你就在7点到8点这4个格下面画一下。中午12点的时候,我看了半个小时的《东方卫视》,就画两个格。晚上7点钟以后,我又看了CCTV-1,然后又画了两个格,就靠这种方法。为什么15分钟一格?你想一下,如果要1分钟一格的话,这个表就要1440列,根本没法打印,96列已经是高清打印机才能够打印出来的。那么按照这样的规模去估算的话,有1000个家庭,平均每个家庭3个人的话,就是3000人。假定所有的时间里都有活动,那么数据量有96000条,存到一个文件里,所以这个不能算是大数据。

到了80年代,出现了一种机器监测,翻译成“人员测仪表”,首先在英国,然后到美国,到21世纪初被引进到中国。这个机器就像我们现在用的机顶盒,它是接到你的电视里面的。如果假定这个样本还是这么多的话,用人员记录仪,时间精度就可以大量提高了。所以一般情况下,时间精度可以提高到15秒,从15分钟到15秒,精度大幅提升。15秒这个单位,在当时,大家觉得够精确了,因为电视节目都是以分钟为单位的,如30分钟的新闻联播,60分钟的电视连续剧等。原来的广告,15秒是少见的短广告,30秒是常见的,长的是1分钟。大家想一下,你现在看到的广告,很多是5秒的,因为广告费用越来越高,很过厂商希望多做5秒钟的短广告。

现在又发展了,我们都是在跟数字电视或者数码电视打交道。在国外叫Digital TV。现在在我国传输的网络基本上还是单向的,你能下载高清电视,但是你的电视机不能反馈,你所有的收视行为是反馈不到电视台或者网络公司的。但在国外,大部分地方都是双向的。那这种双向的电视系统不再需要做抽样,就是总体了。当你在下载电视节目的时候,你下载的所有记录也就立刻反馈到电视台或者网络公司的服务器上。假定这个城市有300万户,300万户就是总体了,而且时间的精度也可以大概精确到毫秒,不是1毫秒,而是能精确到10毫秒。毫无疑问,由于这个数据从1000户到总体,从样本到总体,扩大了近3000倍,然后时间单位又扩大了近100倍,所以现在每天搜集的数据量是人员记录表的450万倍,这个就是大数据。数据为什么会大?因为我们对总体的抓取量和时间单位精确度的提高等,会带来海量的数据。

第二个流行的观点是数据量越大越好、越多越好。对不对?自然对。这里讲的是抽样误差和样本量的关系。如果你抽一个样本,这个样本跟要研究的总体,多多少少总归有一点差别,样本不等于总体,那么它们之间的差别叫作误差。这个误差有两个来源,一个是抽样过程中的随机误差。简单地说,随机误差使得你对总体的估测变得不够精确。大数据带给我们的是精确,也就是说随着样本的增加,从小数据到大数据过程中,获得了精确度的提高,但这个提高不是直线的。除了这种随机误差以外,还有一种叫系统误差,系统误差是没法用计算方法来计算的,也跟数据量无关。大数据,只要不是总体数据,都有偏差。这个偏差多半是系统偏差,也许数据量越大,这个偏差越有害,所以我说《大数据时代》这本书的基本观点是错的。它说大数据时代我们只需要粗糙的数据,不需要精确的数据,其实这话讲倒了。大数据给我们的一定是精确,但是不能保证我们的数据没有系统性的偏差。

在美国,有一些长期做商业智能的公司,提出了“medium data”(中数据),它们认为中数据的性价比最高。它们认为,在10万以下的叫小数据,10万到千万的叫中数据,千万以上的叫大数据。当然,这种划分都是人为的,根据不同的需要你可以随便切。按我们电视收视率来讲的话,1万个就可以是中数据了。因为我们讲的是1万个家庭,每个家庭平均有3个人,所以1万个家庭已经有3万人。数据越大,不是一定越好。因为从精确程度上来讲,它在无限被提高,但对成本、资源、设备的要求提高了以后,同时还会带来很多意想不到的误差。为什么现在的数据并不丰富?我要给大家讲一下数据的基础知识。一个数据其实就是一个二维的表格,每一行代表的是一个个人,比如第一列就是记录了每一个人的网络ID,学生编号,身份证,手机号,也就是网民的用户账号等。每一列从X1、X2、XJ到Y1、Y2、YK等,记录的是个人的特征、年龄、性别、教育程度、个人兴趣爱好、平时使用习惯、旅行习惯、朋友个数等信息。做传统调查成本很高,每一次好不容易抽到一个个人,问卷经常有10页、20页,调查半小时是很经常的。我见到过的一个最长的调查,大概给你一些毛巾、香皂,然后就问3个小时,被调查的人已经完全麻木了,你问什么都是对,或者从头到尾都是no,质量是另外一回事,但以个案的数字来讲是很丰富的,这种数据我把它叫作胖数据,fat data,高度有限,宽度极大。我们理想的大数据是什么?也是一个二维的表,这个表跟上面的表相比,宽度一样宽,但是长度可以是无限长,这个量可以是无穷大。所谓无穷大,比如人口总数,中国多少亿,印度多少亿,全球多少亿,而且每天的事情在发展,所以,这是理想状态的海量的个案、海量的变量。但是,实际上,大家千万不要以为,我们现在的大数据都是长成这样的,其实不然,极少的网站有这样的数据,淘宝有这样的数据,百度没有这样的数据,腾讯夹在淘宝跟百度之间,其他绝大部分的网站都是这种类型的数据,就是高度无限高,但是特征值或变量的个数非常少。为什么百度没有?百度拿到的是搜索数据,搜索能够告诉你的信息:第一是你的IP地址,相当于我们的ID;第二,你输入的关键词;第三,你搜索的时间;第四,它返回的URL,你点进的URL。你在别的地方的一切,百度都不知道的。我们看的数据差不多就是两三列,第一列基本上是没有意义的,一个IP地址。由于现在IP地址都是不够的,所以大家用的都是动态的,这一分钟是你的,下一分钟就是另外一个人的。那些做数据挖掘的IT公司,下了极大的功夫,希望通过你的其他行为的特征,来判断一个IP地址上面每一次行为是不是同一个人,不同的IP地址背后是不是同一个人。这种事情一直在做,我们有时候也在做这种事。但是这种事没有100%准的,就会造成系统误差。系统误差有各种来源,其中一个来源就是,我们并不知道真正的用户是谁,我们跟进大量的数据去推测,我们不知道这个推测是对还是错。这就是系统误差的一个可怕的地方。随机误差,我们可以用公式来计算多大多小,我知道我的误差有多大。系统误差不知道是多少,我也没有办法传达给我的用户,用户看了这个值以后,一看这是大数据上挖出来的东西,大家就信了,这才是问题。现在讲大数据的人都把这个作为现实去讲,我的一个疑惑就是,这些写大数据书的人、讲大数据的人,难道他们从来没见过大数据是长成什么样的吗?有两种可能,少数人真的见过大数据,但他不愿告诉你,真的大数据还是很悲惨的。大部分在讲大数据的人,这一辈子没见过大数据是什么样子。

大数据处理技术其实并不成熟,所谓的成熟应该涉及三个方面,存储、提取和最后的统计分析。我只讲存储,因为这是物理意义上讲的硬件,大家能感受到。一个大型网站,还不要到淘宝、百度、腾讯这种规模,比如旅游、银行、点评这种网站,它一天的数据差不多就是1PB,PB是TB的1000倍。1TB是什么?现在大家的硬盘,较大的硬盘大概是4~5TB,一天就要200~250块硬盘去装一天的数据。到分析的时候,你的数据要读到你的内存里面去,你们现在的电脑的内存标配是4G,稍微好一点的是8G,还可以加到32GB、64GB。那时候,你内存的钱已经是你其他所有钱的几十倍了,你仅仅是一个TB的几十分之一,是你一天的数据的零头的零头。内存的大小取决于你对数据运算的速度。所以,真正看到大数据的人才知道,我们现在要处理大数据其实是很慢的,就是因为要把这个数据读到内存去的话是很慢的。在一个大数据会议上,中国联通数据中心的主管跟大家介绍他们的数据量大到什么程度,每隔40天要把第41天的数据删掉。中国联通没有足够的数据存储中心来存吗?他说有两个问题,第一,确实没有办法无限地增加数据存储量。他们现在的规模就是三四十天,已经运行了十多年。如果你要把所有的历史数据都保存下来的话,就是要盖几千个现在的数据中心。第二,这些数据保存下来等到你哪一天想到要找它的话,找不回来。理论上绝对找得回来,但可能要几年时间才能查到,所以他们不是把所有数据简单地就删掉了,要做很多压缩、提取、简化,然后把大数据变成小数据,然后把不要的数据删掉。联通是中国第二大移动公司,仅次于移动,比中国电信规模大一点,是一家上市公司,钱、硬件对它来说其实不是问题,但它受到的制约有能耗的制约、空间的制约,还面临实际应用的问题。这就是为什么我们现在的存储量跟不上数据发展的量,不是说我们做不到,而是在经济上、在实用价值上没有必要这么做,这是真相,这是《大数据时代》的作者不告诉你的,他也不知道。

我们讲有存储、有提取、有分析,我们现在研究大数据所用的统计分析方法还都是经典的统计分析方法,从19世纪七八十年代开始发展到20世纪初,到1920年已经完成。我们现在用的工具都是有80年至一百二三十年历史的工具,这些工具都是好工具,非常稳定成熟,但是它们是为小数据而制作的。真正适用于大数据的工具现在还在襁褓之中,还在开发之中。2011年《科学》杂志发表了一篇分析大数据的相关计算、大数据条件下相关系数的文章。相关系数是卡尔·皮尔逊提出的,我们现在用的还是这种方法,现在还在被各种人鉴定、批判、挑战、完善,如果这种方法能够被普遍接受的话,也就是说现在大数据时代的研究工具相当于1890年时的研究工具,绝对不是说我们现在从硬件到软件到方法都已经完全具备了,we’re not ready yet。

大数据用来做预测的研究个案很多。Google 用search的关键词来做对于流感的预测,2009年有一篇文章轰动全球。这几年大家不断地用这种方法在预测,一开始觉得很准确,现在大家慢慢知道其实它不准的时候远远多于准的时候。大数据是真的正在发生,我们面临的是海量数据。但是对大数据的了解、处理大数据的能力,其实还处在早期。

实际上数据新闻不是随着大数据产生的,两年前的这个月,我在这边讲数据驱动新闻,那个时候大数据还不是一个流行词,但在国外已经讲了一段时间了。数据新闻大概走过了这么几个阶段:20世纪70年代叫精确新闻,即Precision Journalism,80年代叫作Computer Assistant Reporting,到90年代叫作Data Base Journalism,到2000年就是我上次讲的时候叫Data Driven Journalism。现在讲的数据新闻其实更多的是讲Visualization这部分。当然我想强调一下,它们之间的关系不是一个方式取代前面一个方式,只是在每一个时代又加入了新的内容,把这五种合在一起也许就是我们现在讲的数据新闻。

所以数据新闻不仅仅是可视化新闻,虽然现在可视化新闻最火,也许这恰恰是现在的一个问题,很多记者误以为数据就是可视化新闻,把前面的这些传统都扔掉了,但数据新闻基本上跟大数据是独立发展的。当然,我们没有必要排斥大数据所提供的各种工具、数据来源,两者的结合可以使得我们的数据新闻做得更好。

Precision Journalism是Philip Meyer于1973年写的一本书,它是针对民意测验、总统选举和各种社会调查产生的大量结果,媒体自然要报道,但是在报道的过程中,因为涉及调查方法有关的问题,怎么把这些社会科学研究的结果用精确的方法准确地告诉读者,这是Precision Journalism一直关注的,所以它是一个目标非常明确的专业的课程,这个课程主要就是训练大家学习社会调查方法、了解社会调查方法,在写新闻报道的时候如何如实、准确地报告。比如在报道的时候,你必须要提供技术性的细节,再调查是不是有人赞助,有人赞助的话必须要报告,调查的时间、地点写清楚,调查的对象要写得很明确,是成人居民、常住居民还是选民,这些概念互相之间有交叉但是又有差别,不同的研究总体、研究对象,你的结果也许是不一样的。调查方法可能是最重要的,样本的来源是随机的还是便利的,是街上拦截的还是在餐馆、机场、车站调查的,抑或通过随机方法找到门牌号或电话号码调查的,这是会影响研究结果的。随机调查也有误差,误差来自抽样误差。如果你用便利方法,除了抽样误差外,还有系统误差。例如,你去机场调查的都是坐飞机的人,一定是有钱的、时间稀缺的人。调查的人数一定要报告,因为这是你来计算抽样误差的一个基本的信息。访问成功率很重要,你访问1000人到底是你成功访问1000人,还是只成功访问了其中的80个人,那差别就大了。成功率是怎么计算的,谁被算进去、谁不算,美国民意研究协会都有专门的公式。你的问题是在问卷的上面出现的,还是中间出现的,这些信息都要提供。这基本上构成我们讲的Precision Journalism里面的主体。所以它是非常专业的。到现在为止,这种信息对我们传媒专业的同学来讲,仍然是挑战,因为你必须要了解这种技术,最好是做过几次调查,就知道好的调查跟差的调查完成的难度相差很大。强调的是所有的信息要公开、透明,目的是要防止误导,也防止有意操纵、控制。

从20世纪80年代开始,电脑辅助报告,即CAR(Computer Assistant Reporting)开始被充分利用,如通过电脑软件怎么来写作、采访、编辑等。到了90年代又出现Data Base Journalism,这也是互联网兴起以前已经有的。这是通过电话线联网,以政府为主开放的各种各样的数据库。一个政府的预案被通过了,哪些人是支持的,哪些人是反对的,他们这些人背后的家庭、投资跟这些被通过的预案涉及的公司之间千丝万缕的联系等,都是可以通过这种方式来挖出的。所以这种电脑辅助新闻、数据库新闻,一直到我上次讲的DDJ(Data Driven Journalism),这三者其实讲的是一个问题,就是充分利用现在的网络数据,来寻找新闻采访的线索,或者是寻找故事的背景,通过对数据的分析来写新闻。

新闻的写作制作生产过程一开始是采访,采访以前也许还有选题。采访完了以后有分析,最后是写作和发表。最早的Precision Journalism讲的是写作,要写对,不要将调查的方法与细节弄错。后面讲的从Computer Assistant Reporting到Data Base Journalism到DDJ,其实讲的都是采访,或者是采访前面的选题。当然这个采访不是跟活人采访,主要是跟数据库采访,必要的时候自然也会面访,采访一些个人,这些个人仅仅是为了补充、说明、比照你数据分析的结果,数据本身是新闻的主体。

其实,今天讲数据新闻的人大部分是跳过了这一部分,好像数据新闻就是可视化,就是到网上去抓一些数据。后面这种对数据新闻的理解是非常狭隘的,也是很快就会走到头的。因为可视化是很漂亮、绚丽的,但是你如果没有内容,过一阵大家就腻了。内容从什么地方来?我觉得Data Driven Journalism这个词就强调了新闻是从数据里面来的。

现在讲可视化大概有这么几类,一类是一个可视化的图,也许是静态的,也许是互动的,这个图本身就是一个新闻,叫新闻主体。这可能是数据化程度最高的,或者叫可视化程度最高的新闻。比它低一点的是,主题是一个数据故事,再往下新闻导语是一个数据,最低程度的就是一个插图。这种分类本身没有错和对,每一种都有它的需要,比较重要的是你作为主题也好,作为主体也好,故事在哪儿。我选了几个例子,比如有一张图告诉你中东政局的,这就是一个主体。再比如,上一次人大结束的时候,有用户对李克强的记者招待会进行实时反馈的抓取,这是个大数据工作,它基本上就是一个主体,还有一些补充材料。

比较一下我刚才讲的三大范式,从精确新闻到所谓的CAR到DBJ到DDJ到现在的数据可视化新闻,从表现形式来讲,第一阶段强调文字,现在讲的是图像,而当中这二三十年强调的是数据分析,它最后还是要通过文字和图像来表示的,但当中这个阶段讲的是数据的灵魂。如果各位有志于做数据新闻的话应该要花时间去学习Data Driven Journalism。可视化并不难,而Data Driven Journalism是难的,因为你要知道怎么分析数据。

可视化的应用要适当,不是任何一个东西都要配上一个图。当然各自追求的目的不一样。第一阶段强调准确、严谨、公开透明,第二阶段要探秘,要通过数据去找采访线索,故事在什么地方、线索在什么地方,要深入、要强调,要进行数据比照,保证数据确凿。当然可视化是一种艺术展现,形象、简化、互动等,各自都存在一定的局限。

做数据新闻对大家学习的知识、技能有很多新的挑战,你们现在还来得及,还有机会,要充分利用现在学校的条件。我原来是一个数据可视化盲,艺术素养很差。但最近几年我们跟微软研究院的数据可视化组一起在做项目,我才知道可视化下面分为这两类。微软研究院是全球做可视化研究水平最高的一个机构,研究员没有一个是读艺术出身的,当然不等于他们都是艺术白痴,他们也知道基本的艺术作图技术、构图、颜色搭配等,但主要的工作是把复杂的数据用一种最容易被理解的方法展现出来,通过对比展现,是新闻可视化应该走的方向。

大家反思一下,你们每天在平面媒体、网络看到大量的数据可视化作品,应该能看到很多差距,大部分作品是为展现而展现,为形式而形式,因为这些作品的制作者都是美工,对美工来讲,他们的第一要务是美感,是艺术震撼力。这些作品第一感觉确实很震撼,之后就觉得不过如此,再后来就是审美疲劳。像一些一看上去没有任何震撼力的作品,但是你仔细读会发现很多内容。

嘉宾:大数据的发展一方面为我们的生活提供了便利,但是另一方面会带来一些隐私和国防方面的安全隐患。所以我想请老师能不能从专业的角度来为我们指点迷津,怎么才能解决大数据时代给我们带来的生活上、安全上的危害?

祝建华:你的提问已经把问题都点出来了。现在碰到的就是一对无法协调的矛盾。作为用户,我们希望得到两件东西,第一是便利,第二是安全,这是非常美好的愿望,但事实是鱼与熊掌不可兼得。你要便利一定要牺牲你的隐私,你要最安全的话就是拔掉你的网线,永远不上网。这个矛盾怎么解决?应该是所有的利益相关者坐在一起,达成一定的基本准则。用户是利益相关者,电商希望数据越多越好、隐私越多越好,为此它们愿意买单、愿意提供免费的服务,还有政府,至少是这三方。政府与这两者其实是没有利害冲突的,政府的责任是在用户跟电商或者更广义的数据收集者之间成为一个仲裁者。政府本身又是第三方利益相关者,所以这个问题不是学术问题,是一个政治问题,需要全球人类用共同的智慧来解决这个问题。

嘉宾:老师您好,我们这些学媒体的学的很多都是理论性的东西,应该怎样提高自身能力去适应大数据时代?第二个问题,很多时候收视率调查结果是不一样的,对此您怎么看,或者说在互联网时代有没有一个更公正的第三方利用大数据确保收视率客观公正?

祝建华:后一个问题是电视收视率在大数据媒体的环境下怎么找到各种不同的研究方法与不同指标,我想答案是肯定的,今天的市场不是央视—索福瑞能够垄断的。央视—索福瑞推出一个微博电视指数,与此同时,我知道的就有很多其他的机构也在做类似的数据,因为微博的数据是公开的,每个人都可以拿得到,所以这样的研究慢慢就会出现,多了以后自然方法不一样,结果会不一样,这反而是一个健康的现象。

前面这个问题我想各位更有兴趣。作为学生,我们来参与或者迎接数据新闻时代或者大数据时代,我们应该学习哪些知识?首先,大家要学好定量研究方法,虽然目前定量研究方法讲的还是传统的方法,调查、内容分析、做实验,自然这当中会讲到做传统的统计分析。大数据时代最重要的就是要懂怎么分析,知道统计分析的基本原理以后,自然了解数据。我们的目的不是做分析,是讲数据故事,但讲数据故事必须要知道一些分析的基本原理。其次,在这个基础上,根据个人的兴趣和个人的条件,应该多多少少去学习怎么通过各种现成的工具或者自己写程序来获取网络数据,这方面有很多现成的教程或者视频。现在的网络资源非常多,各种各样的学习机会也多,所以建议大家把眼睛睁得大一点,学会利用各种资源和机会。

帮助中心电脑版