美国政府如何利用数据公开实现有效管理?读《大数据:正在到来的数据革命》
2012-07-01 14:07

美国政府如何利用数据公开实现有效管理?读《大数据:正在到来的数据革命》

内容概要

本书通过讲述美国半个多世纪信息开放、技术创新的历史,以别开生面的经典案例——奥巴马建设“前所未有的开放政府”的雄心、公共财政透明的曲折、《数据质量法》背后的隐情、全民医改法案的波澜、统一身份证的百年纠结、街头警察的创新传奇、美国矿难的悲情历史、商务智能的前世今生、数据开放运动的全球兴起,以及云计算、Facebook和推特等社交媒体、Web3.0与下一代互联网的未来图景等等,为您一一细解,数据创新给公民、政府、社会带来的种种挑战和变革。

整理/单单

1、数据公开在美国走过的历程:信息自由法-修正案-电子信息自由法-开放政府法 。
2、政府数据的来源及应用举例:业务数据-民调数据-环境数据;福利打假-治安管理。 
3、商务数据的主要来源及应用:数据仓库-数据挖掘-数据可视化 。
 
4、美政府对数据的规定:收集:减负;使用:保护隐私;发布:免费;管理:质量。 
5、数据质量法的困局:产业界游说政府;公共利益无人代表。 
6、大数据对公民隐私的侵犯之忧 。
 
7、美政府数据公开的进程及应用:截至2011年底data.gov开放3721项数据,应用举例 。
8、政府信息公开不可能自动推进,民主时时要“争”:两个实例:白宫访客记录;煤矿监管记录 。
 
10、大数据下的未来:云计算、语义网 。
11、政治:得数据者得天下;商业:数据挖掘之争;社会:开放数据导致权力分散化,最终带来网状大社会。
 
12、中国……

个人视角终有局限,如有非虚构类好书新书推荐,还望投稿或微博私信@潘乱兄


序言:大数据为华文世界提出一个重要话题


许倬云 
涂子沛先生的新著《大数据》,已经完成,是一部300多页的大作。最近他将这本书的打样稿送来给我看,并且要求我作序文。可惜的是,我将要远行,而他索序甚急,我只能在浏览一遍之后,发抒自己一些感想。至于细细咀嚼和消化这本有趣作品的内容,必须要在一两个月以后,也就赶不上涂先生大作的出版时间。我事先声明,这些只是我浏览他大作以后的一些感想,非常立即的直觉,也一时谈不上深刻的见解。 
  
这本书的内容,强调今天是一个大量数据公开于大众的时代。自从资讯革命以来,资讯工具、硬件、软件,平行发展、与时俱进。数据在我们生活之中,日常接触,已是处处可见的现象。收集数据,当然是靠电脑的快速分类和记录,然而更重要的是搜索引擎的进步,与网络之间网际的交流。到今天,一个一个网,不但可以串连在一起,互相沟通,而且“云端”(云计算)的设计,可以将每一个地区个别数据,储成一个大的数据库,有助于我们更迅速广泛地搜索。 

这些现象,20世纪最后四分之一以来,已经呈现加速度发展的新事物,在21世纪进展速度之快,更是铺天盖地、无所不在。涂先生在这本书里强调:不仅数据经过管理而大量地存在,而且,在现代的国家,尤其是民主社会,开放的社会与政府之间,经由数据,彼此一目了然、无所隐瞒。一个自由的社会,掌握公权力的政府,跟任何其他政府一样,有压倒社会的庞大力量,因为他们手上掌握了人生需要的许多数据。不过,这些数据,在自由的社会,公民也可以一样取得,使政府所作所为,可以摊开在天地之间,让我们检验。过去封建专制和集权各种政体,其执政者能压迫老百姓,而老百姓没有办法回制公权力的压迫。涂先生特别标榜,美国奥巴马接任以后,尽力将数据开放于大众,固然奥巴马是一个有开放心胸的政治人物,如此将政府掌握的数据,大量地开放于群众,也是拜时代之赐,有如此的机缘,才能将数据公开。 
  
  
涂先生引用胡适之先生与黄仁宇先生的话。胡先生说中国人习惯于“差不多先生”,凡事马马虎虎、不求精确。黄仁宇先生认为,中国不懂得用数字来管理国家。涂先生引用这两位先生的名言,当然是要彰显传统中国和今天美国之间的巨大差异。不过我必须有所说明:胡先生和黄先生的话语,都是“爱之深而责之切”的心态,他们身经当时中国的混乱,激愤而出此感言。 
  
从历史上看看,不论中国和西方,任何国家发展到可以有一个复杂文官系统管理以后,没有不依照数据来治国的。人口、资源、土地、财产种种的统计数字,在中国历史上,自从战国时代形成列国的国家体制以后,没有一个朝代不具有一定的数据库;只是以今天的标准来讲,粗糙和细密之间,古今有很多的差别而已。以汉代为例,汉简所显示的家户统计,每一户中的人口,男女老小,以及拥有的资产数目字,都详细统计,而且不论是居延边塞,或是荆州内郡,格式一致。汉简各种家户统计,与唐代西域州府的记录对比,其内容格式也是相当一致。这种基本的数据,在列朝的会典中,都见到其大概。当然,各个朝代的数据,有做得好的,也有做得差的。大致讲起来,外族侵犯中国建立的朝代,以武装力量强制建立政权,也往往依靠暴力的掠夺,取得他们所需要的资源。一个上轨道的朝代,其数据还是相当完整。 
  
再看西方历史。希腊时代,我们了解的资料不够。罗马帝国时代,全帝国包含各种不同的政治单位,并没有一个大一统的文官政府;因此,全国性的资料库似乎不存在。等到中古黑暗时期,国不成国,地方不过是大小封建领主占有领土而已,他们并没有建立详细的资料库。近代以来,列国各自组成完整的主权国家,这些数据也纷纷出现了。 
  
这是以历史上政权掌握数字而言。一家大型的企业,例如,中国清代的票号,如果他们手上没有复杂的数据库,就不能进行汇兑、放款、存款等等活动。英国的东印度公司,手上握有丰富的资源,他们也不能不具有一个相当完整的数据库,否则无以经营这么复杂的开拓业务。 
  
今天的数据时代,我已经在前面提过,不仅公司单位都有搜集数据的能力,而且更重要的,有搜寻引擎可以将资料迅速检索,从其中归纳出条理,有助于了解情况。举一个例说,最近我们才看到,数据资料显示,美国百分之一的人口,拥有全国财富百分之四十以上,百分之九十九的人口,拥有全国财富才过半而已。对于许多长期习惯于美国是开放社会的一般人民,这一组数据显示的现象,几乎可说是理想的破灭,使大家必须检讨: 美国真是如此开放吗?还是相对地在逐渐关闭?是不是财富与权力,已经逐渐集中到社会顶端一小撮的人手中?他们以财富作为魔法师的指挥棒,安排了我们的生活、决定了我们的未来。这种现象能够暴露于众,当然就因为在美国究竟资讯是公开的。 
相对而言,在极权的国家,他们手上拥有足够的资讯,足以利用这资讯,掌握每一个人的日常生活;“老大哥”的影子,可以无所不在。资讯时代,对于极权的掌权者,他们拥有无可比拟的强大工具,甚至于比坦克车和催泪弹更为有效。资讯管理、资讯控制,是无影无踪,又是无所不在。说到这里,我们不能不更多警惕。 

作为一个史学工作者,看惯了世间的灾难和创伤,不能不提出警告:这个中性工具,也只有在了解到资讯工具阴暗面——双刃剑的特性,在权势独占这一工具时,可能出现的危险。有此认识,我们才能善于利用这了不起的工具,开创更好的未来,也防治不虞的灾害。 

涂子沛先生《大数据》这部书,清楚地叙述了资讯时代对我们生活的影响与社会的控御力。他讨论的范围方方面面、极为广泛。我盼望有了这本书作为起头,还有很多对资讯工具有研究、也有心得的人,参加讨论,让我们更清楚地了解,这个21世纪正在坐长的新的知识工具。为此,我们要对涂子沛先生致敬与致谢,因为他为华文世界提出一个重要的话题。 
2012年4月8日 于匹兹堡


挑战中国:摘下“差不多先生”的文化标签


文/涂子沛

“而最大的毛病,则是西欧和日本都已以商业组织的精神一切按实情主持国政的时候,中国仍然是亿万军民不能在数目字上管理。……一旦某一个国家能在数目字上管理,到底使用何种数字,尚可以随时商酌,大体上以技术上的要求作主,不必笼统的以意识形态为依归了。”
——黄仁宇(1918—2000),美籍华裔历史学家,1991年

在论述完大数据时代的趋势以及这个时代给个人、企业和社会带来的诸多挑战之后,本书应该可以画上句号了。但在结束之前,作为一名中国人,还是按捺不住,要絮叨几句我们中国在这个大时代当中所处的位置。

数据表明,今天的中国,是一个人口大国、互联网大国、手机大国,但却恰恰还不是一个数据大国。2011年,麦肯锡公司以2010年度各国新增的存储器为基准,对全世界大数据的分布作了一个研究和统计,中国2010年新增的数据量约为250拍,不及日本的400拍、欧洲的2000拍,和美国的3500拍相比,更是连十分之一都不到。

和美国相比,中国拥有数据量的绝对值较小,这在情理当中。本书第三章曾谈到,美国的联邦政府,是一个数据帝国,它的数据主要有三个来源,一是业务管理的数据,二是民意社情的数据,三是物理环境的数据。这三种数据的积累,并不是一蹴而就的,在其漫长的发展过程中,有其重要的里程碑,例如1940年罗斯福引进的民意调查、1962年启动的海浪监测计划和1973年诞生的最小数据集。

而中国类似进步的取得,都是进入21世纪之后才发生的事情。2003年,中国开始着手制定医疗系统的最小数据集,3年之后,中国卫生部出台了第一版中国医院最小数据集的标准。也是在2003年,中国创立了第一个全国性的大型社会调查项目,开始对社会的发展和变迁进行全方位、综合性、纵贯性的问卷访谈调查。这个调查叫做“中国综合社会调查”,是由中国人民大学发起的,中国人民大学随后还按照国际标准成立了“中国社会调查开放数据库”,向全社会开放调查的结果和数据。2006年9月,在几经周折之后,国家统计局正式成立了社情民意调查中心,这是中央政府第一个、也是目前唯一一个专司社情民意调查的单位;至于对物理环境数据的采集,更是2010年前后才见到若干零星的报道。

因此,从历史发展的角度来看,中国拥有的数据量较小,可以理解;但另一方面,立足现实,中国的人口、互联网的用户、手机的持有量都位居全世界第一,2010年全年新增的数据量却尚不及美国的十分之一,也大大出人意料。

2011年,中国拥有4.8亿的互联网用户,几乎是美国的两倍;拥有近9亿部手机,是美国的3倍。互联网和手机,都是产生数据的重要来源。在中国,存储器的价格也已经和国际接轨、相对便宜。在认真考察了这些因素之后,就不难发现,中国缺乏的不是可供收集的数据,也不是收集数据的手段,而是收集数据的意识。

中国人数据意识的淡薄,由来已久,甚至可以称之为国民性的一部分。

19世纪中叶,中国的大门被西方的坚船利炮打开。由于科学落后、文化封闭,此后的百多年来,中国人饱受屈辱。在落后、挨打的痛苦挣扎中,中国人开始慢慢睁眼看世界,反省自己与西方的差距,在这个过程当中,也有思想先贤对国民“数据意识”方面的问题进行反省、批判和鞭笞。

中国近现代著名的思想家胡适就对中国人“凡事差不多、凡事只讲大致如此”的习惯和作风深感忧虑。1919年,他写下著名的《差不多先生传》,活灵活现地白描了中国人取道中庸、不肯认真、甘于糊涂、拒绝精准的庸碌形象:

你知道中国最有名的人是谁?

提起此人,人人皆晓,处处闻名。他姓差,名不多,是各省各县各村人氏。你一定见过他,一定听过别人谈起他。差不多先生的名字天天挂在大家的口头,因为他是中国全国人的代表。

差不多先生的相貌和你和我都差不多。他有一双眼睛,但看的不很清楚;有两只耳朵,但听的不很分明;有鼻子和嘴,但他对于气味和口味都不很讲究。他的脑子也不小,但他的记性却不很精明,他的思想也不很细密。

他常常说:“凡事只要差不多,就好了。何必太精明呢?”
……

后来他在一个钱铺里做伙计;他也会写,也会算,只是总不会精细。十字常常写成千字,千字常常写成十字。掌柜的生气了,常常骂他。他只是笑嘻嘻地赔小心道:“千字比十字只多一小撇,不是差不多吗?”

有一天,他为了一件要紧的事,要搭火车到上海去。他从从容容地走到火车站,迟了两分钟,火车已开走了。他白瞪着眼,望着远远的火车上的煤烟,摇摇头道:“只好明天再走了,今天走同明天走,也还差不多。可是火车公司未免太认真了。八点三十分开,同八点三十二分开,不是差不多吗?”他一面说,一面慢慢地走回家,心里总不明白为什么火车不肯等他两分钟。
他死后,大家都很称赞差不多先生样样事情看得破,想得通;大家都说他一生不肯认真,不肯算账,不肯计较,真是一位有德行的人。于是大家给他取个死后的法号,叫他做圆通大师。

他的名誉越传越远,越久越大。无数无数的人都学他的榜样。于是人人都成了一个差不多先生。——然而中国从此就成为一个懒人国了。

黄仁宇,是著名的华人历史学家,他参加过抗日战争,后来在美国学习、研究、深造,成为学贯中西的一代大家。他在晚年时发表了一系列的著作探讨中西方社会的异同。他认为:“资本主义社会,是一种现代化的社会,它能够将整个的社会以数目字管理(Mathematically Management)。”

数目字管理,即以事实为基础、以数据为核心的精确管理。

黄仁宇总结说:“中国过去百多年来的动乱,并不是所谓道德不良,人心不古,也不是全部军人专横,政客捣乱,人民流离”,而是因为中国未能像西方那样实行“数目字管理”的现代治国手段。他还认为:“一旦某个国家能在数目字上管理,到底使用何种数字,尚可以随时商酌,大体上以技术上的要求作主,不必笼统的以意识形态为依归了。”

一句话:中国的落后,根源之一正是缺乏以数据为基础的精确管理;而未来中国的进步,也有赖于建立这种精确的管理体系。

除了中国人自己思想家的反省和批评,西方世界对我们中国人漠视数据的特点也洞若观火。

阿瑟·史密斯(Arthur Smith)是一位美国的传教士,他于1872年来到中国,在中国的普通社区生活了54年,随后著书立说,成为名动一时的中国文化研究专家。1894年,史密斯出版了《中国人的性格》一书,该书在中国社会、国际社区都产生过很大的影响,一度被公认为研究中国人最权威、最详尽的著作之一,被翻译成很多个国家的文字。

史密斯认为,中国人,是一个“漠视精确、思维含混”的民族,他在书中写道:
“中国人完全能够像其他民族一样学会对一切事物都非常精确——甚至更加精确,因为他们有无限的耐心——但我们必须指出的是,他们目前还不重视精确,他们还不知道精确是什么。如果这一看法是正确的,那么就可以有两条推论:其一,在我们考查中国历史档案时,必须考虑到中国人漠视精确这一特性。我们采用中国人所提供的数字和数量很容易使我们自己受骗,因为他们从来就不想精确。其二,对于中国人所提供的冠以‘统计数字’以抬高其权威性的各种材料,必须留有很大的余地。”(《中国人的性格漠视精确》)

作为一名留学生,长期在美国学习、工作和生活,我也深感到,和美国人相比,中国人确实缺乏“用数据来说话”的素养。中国的语言表达方式中“重定性、轻定量”的特点非常明显,口语中经常使用“大概”、“差不多”、“少许”、“若干”、“一些”等等高度模糊的词语。我身边的一位攻读博士学位的朋友,曾经给一位美国教授提供过一份中国菜的烹调方法,但其中关于“盐少许”、“酒若干”、“醋一勺”的提法,令这位美国教授抓耳挠腮、不知所措。我事后自问,也确实感到这种提法,完全是跟着感觉走,让人无从下手。此外,和美国数据资源的丰富、开放相比,不少中国留学生对于国内的数据匮乏有切肤之痛。写论文、做研究,如果能选一个自己熟悉的中国话题,于国于己,都更有意义。可选的话题不少,但常常因为一数难求,多数选题都逃不出夭折的命运!有些数据国内确实没有,有待收集;还有些数据水分太大,经不起推敲和检验;再有的,被有关部门贴上了“机密”的标签,平民百姓无缘相见。

黄仁宇还对中国人缺乏“数据精神”的根源做了剖析,他认为:在中国传统的学问——理学或道学当中,一直都分不清伦理之“理”与物理之“理”的区别。这两个“理”混沌不分的结果,是中国人倾向于粗略的主观定性、排斥精确的客观定量,从而养成了重形象、重概括、轻逻辑、轻数据的文化习惯。这种文化习惯,使中国人长期沉浸在含蓄、模糊的审美意识当中,凡事只能在美术化的角度来印证,满足于基于相似的“模糊联想”,止步于用逻辑来分析、用数据来证明,最终将表象上的相似,当做本质上的相同。

但欧洲在中世纪之后,就将“伦理之理”与“物理之理”这两个“理”划分得很清楚了。

黄仁宇的看法,并不是一家之言。现代著名思想家汉娜?阿伦特(Hannah Arendt)也曾经对比过中国人和西方人在思维方法上的不同。她的结论是:西方人是“词语思维”,中国人则是“形象思维”,而形象思维不是一种基于逻辑的推理性思维。

归根到底,中国人对数据的漠视,缘于一种文化上的缺欠:随意、盲目、不求甚解、理性不足。

因为这种文化上的不足,科学最终在西方国家起源,当然不足为奇,中国人100多年来只能跟在别人身后亦步亦趋,也是应得的命运。

除了数据的收集和使用,中国在大数据时代需要面对的挑战,还有数据的开放。

如果说收集数据是一种意识,使用数据是一种文化、一种习惯,那是否开放数据则是一种态度。

正如本书前文所描述的,互联网上的数据开放,其开放的对象不仅仅是一个国家的人民,而是全世界的人民。这种开放,是无法阻挡的。中国人,只要愿意,就可以登陆其他国家的开放网站,下载他们的公共数据,分析他们的财政开支细目,考察他们的房屋交易价格,甚至参与他们对公共事务、社会事务的批评和监督。即使作为外国人,在这个全球化的时代,中国人也可以感受到数据开放给全人类带来的种种便利和实惠。而这些便利和实惠,正在成为信息时代世界各国一项基本的公民权利。

由于互联网的发明,“开放”已经成为人类社会一个不可逆转、不断加速的社会思潮。如雨果所说:你可以阻挡一支入侵的军队,但你无法阻挡一种思想。在这个浩浩荡荡、不断前进的世界大潮当中,我们将发现,中国如果不跟上,我们的处境将会越来越微妙、越来越尴尬、越来越孤立。

收集数据、使用数据、开放数据,都是大数据时代我们中国人需要一一面对的挑战。

这三大挑战,没有一个不是任重道远。但这些挑战,也是我们在大数据时代彻底摘掉“差不多先生”文化标签的重大历史机遇。如果在这个数据意义凸显的时代,我们还抓不住这些历史机遇,继续漠视数据、拒绝精准、故步自封,等待我们的,还将是一个落后的100年。
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定