网易首页 > 财经频道 > 正文

计算历史学:大数据时代的读书

2014-06-15 09:41:25 来源: 东方早报 举报
0
分享到:
T + -
计算历史学:大数据时代的读书
  图一
计算历史学:大数据时代的读书
  图二
计算历史学:大数据时代的读书
  图三
计算历史学:大数据时代的读书
  图四
计算历史学:大数据时代的读书
  图五

尼 克

计算历史学”(Computational Historiography或者干脆Computational History)是一个我杜撰的词儿,一方面是迎合目前啥事前面都加“计算”的时尚,比如最唯物的有“计算广告学”(Computational Advertising),最唯心的有“计算形而上学”(Computational Metaphysics),中间隔着计算数学、计算物理学、计算化学、计算生物学、计算语言学等等。这年头,跳大神儿的要是不会个计算,都不好意思上春晚或江苏卫视。另一方面也是给中国做历史的提个醒:大部分的中国哲学家翻译水平已经被谷歌百度翻译器赶超了,历史学家要是再不上进,也快没饭了。历史学最近屡被自然科学进犯,这不,前脚遗传学刚走,大数据和计算又来了。随便一个科学家都能到这儿玩个票。倒不是吓唬谁,这回介绍个神器: Google Books Ngrams。不信不服。

谷歌的两位创始人在斯坦福读书时都在数字图书馆项目里干过活。早在2002年,谷歌还没出大名时,就启动了Google Print项目,要把全世界的数字图书馆项目统一起来。拉里·佩奇访问了他的本科母校密歇根大学,那里的图书馆学院是美国排名最靠前的之一,当时正有数字图书馆项目,就是用数字扫描仪把图书馆的所有书扫描然后做字符识别。佩奇参观了这个项目,结论是密歇根需要一千年才能把本校图书馆的书扫完。佩奇向校长建议:我六年就能扫完全世界的。这还真不算什么,扫描和字符识别都是成熟的技术,更重要的是谷歌有人,有钱,有效率。佩奇随后又访问了牛津最古老的Bodley图书馆,受到震撼,由此也和更多的大学图书馆结成伙伴关系:谷歌和这些图书馆合作数字化他们的所有书,从英文开始。

但三年后,谷歌迎来了两场官司,一场是作者组织的集体诉讼,另一场则来自出版商。焦点自然是版权。2008年谷歌和出版商达成协议,同意为出版商和作者提供补偿。谷歌随后将Google Print项目改名为Google Books,在Google Books中,版权已过期的书全部公开,版权没过期但得到授权的可通过“预览”功能(Preview)部分地公开。但美国作协(Authors Guild,不知是不是中国作协的姐妹单位)对谷歌和出版商的协议不满,认为出版商不能代表作家的利益,于是又对谷歌提起诉讼。2011年,一位联邦法官拒绝了谷歌和出版商的协议,于是“作协对谷歌”的案子正式进入诉讼程序,直到2013年11月,联邦法官陈卓光(Denny Chin)做出对谷歌有利的判决,他的根据是“公平使用”(fair use)原则。哈佛图书馆馆长罗伯特·达恩顿(Robert Darnton)2010年写了本书讲了这个案子的早期发展,书名很有意思,叫The Case for Books,但中文版译名为《阅读的未来》,没有了原名的多重隐意。达恩顿作为历史学家,只看到谷歌扫描书这一回事,却并没有意识到Google Books不止扫描,更多是企图用机器理解被扫描的书的内容。

到2010年,谷歌已经扫了一千五百万册书,这时谷歌决定将已经扫过的书的某些统计结果公开,这就是Google Books Ngrams。Ngrams是在文本中统计词频的算法。也就是说,书的内容不一定公开,但关于书的词频统计结果可以公开,并且Google为Ngrams做了一个“显示器”(Viewer),它可以画出输入的任何词或词组的词频统计结果。到2013年4月,已经有超过三千万册书纳入Google Books。一开始这些结果只被计算机科学家和计算语言学家所知,但现在越来越多的人文学者也开始玩起Ngrams了,估计用不了多久,这东西会成为字典一样的必备工具。

下面通过几个例子介绍Ngrams的用法。

例一、“黑鬼-黑人-非裔美国人”

上世纪六十年代美国黑人民权运动爆发之前,“黑人”普遍被歧视地称为“黑鬼”(nigger),随后则被称为“黑人”。而近年来,“非裔美国人”变成更为政治正确的叫法。在Ngrams里输入,nigger,black people和African-American,可以清晰地看到这一趋势。横坐标是时间,纵坐标是词频。(见图一)

例二、“科学、哲学与宗教”

按照罗素在《西方哲学史》里的打油说法,科学是确定性的知识,神学是不诉诸理性的教条,而哲学则介于两者之间。比罗素晚一辈的美国哲学家蒯因可能不同意,他认为哲学压根就应该是科学化的(Scientific Philosophy),但蒯因的学生辈大概是最后一拨科学化的哲学家:新起的一大票逻辑学家都出自数学系和计算机系,哲学系已剩不下什么“科学”的玩意儿了。如果哲学家们还不争气,再过个十年,也许Ngrams真会验证这个预测。在Ngrams中,分别输入首字母大写的“Science, Philosophy, Religion”,和小写的“science, philosophy, religion”,我们得到如下两张图。在大写的图中(图二),可以清楚看到在公元1600到1800年间,宗教是压倒性强势,然后是哲学,相比之下,科学还是没影的事。但1850年是转折点,科学慢慢占据优势,比宗教和哲学加起来都大。在小写的图中(图三),科学和宗教的位置互换,晚了一百年。研究文化史和科学史的恐怕各自都有解读。

科学史家劳拉·施耐德(Laura Snyder)写过一本很有意思的微观科学史著作《哲学早餐俱乐部》(The Philosophical Breakfast Club: Four Remarkable Friends Who Transformed Science and Changed the World)。讲的是十九世纪初,四位剑桥的学生:查尔斯·巴贝奇(Charles Babbage,数学家兼工程师,某种意义上,他发明了最早的计算机), 约翰·赫歇尔(John Herschel, 天文学家兼数学家),胡威立(William Whewell,科学家、哲学家、神学家)和理查德·琼斯(Richard Jones,经济学家),他们每个周日早上一起聚餐,讨论科学问题。他们后来对科学事业和科研社团(如皇家学会)在英国的发展做出了巨大贡献。那时,他们不满意被别人称为“自然哲学家”,其中胡威立最早提出了“科学家”这个词。这段有趣的故事提供了科学从哲学中分离的微观历史。如果在Ngrams里输入“natural philosopher,scientist”,可以和劳拉的故事互为佐证。把微观的课题放在宏观的历史语境(context)中,我们会学到更多。

例三、 文坛座次

中国文坛讲究排座次,鲁郭茅巴老曹,等等。前几年也不知哪个瞎起哄非要把金庸也拉入伙。二话不说,先把老哥几个的名字一顺给Ngrams,看看咋说。注意:鲁、郭的名字七十年代前的拼法分别为Lu Hsun和Kuo Mo-jo。两秒钟出结果:瞧人家画的这图,跟炒股曲线似的(见图四)。可以看出鲁爷江湖地位不可动摇,八十年代末九十年代初有点技术性下滑,随后又呈上升态势。但貌似三四十年代,鲁略输郭。不明白为啥曹禺就不带玩了呢,即使输入老拼法Tsao Yu也不济。金庸按说是这老几位里英文最好的吧,但就是不受待见,把他小名路易·查良镛(Louis Cha Leung-yung)算上,也不管用。这张小图够北大复旦那啥系的博导们喝一壶吧。顺便再给中国作家们支个招:以后要想名垂千古,就给你们家子孙后代都取同一个名,英文名也一样,无论性别,只要女眷能分清自己爷们就行。这招特适合代笔抄袭的。

例四、 美国历史

过去是数学家研究自己的历史,所以有“数学的历史”,现在是数学家研究别人的历史,所以有“历史的数学”(Mathematics of History),这个词儿还真不是我瞎编的,哈佛的两位应用数学家艾略兹·利伯曼·埃顿(Erez Lieberman Aiden)和让-巴蒂斯特·米歇尔(Jean-Baptiste Michel)最近的主营业务就是研究历史,他们的任职单位是哈佛的IQSS(“定量社会科学研究所”),同时也在谷歌兼职,对谷歌的Ngrams项目有所贡献。哥俩最近写了本书《用大数据透视人类文化》(Uncharted: Big Data as a Lens on Human Culture),用通俗笔法介绍了他们的工作。书中提到了一个更有意思的例子。大家知道美国刚立国那会儿,各州之间是松散耦合,所以国名叫合众国(United States),乌合之众的意思。但内战之后,联邦的凝聚力增强,中央政府的权力也越来越大。埃顿和米歇尔用Ngrams查了两个词组:“United States are”和“United States is”。可以清楚看到,美国内战之前,民众的心态确实乌合,“合众国”原本是复数,所以大家自己的认同就是“are”,但现在的认同自然是铁板一块的“is”了。他们半开玩笑地说:美国内战其实是单数和复数之战,最后单数赢了。(见图五)

还是中国老人有智慧,啥事想不明白,就说:这事留给我们子孙后代解决。过去以为这是托辞,现在有了“计算”,觉得还真是那么回事。过去整不明白的事现在能“算”出来。1996年,IBM“深蓝”计算机逼得最牛的人类棋手卡斯帕罗夫认输,就是靠的计算:“深蓝”比卡斯帕罗夫能多看半步棋。现在人所谓“下一盘很大的棋”就是比其他人多看好几步。过去中国人追求“行万里路,读万卷书”,其实就是抱着三字经满脑子范冰冰,坐高铁去趟铁岭。但瞧人家谷歌——论行路:无人驾驶车已经在加州办好驾照了,而论读书:Google Books把全世界的书都读遍了,而且有问必答。这要是用下围棋做比喻,人家得让钱锺书或者艾兹拉-庞德们多少子啊。

以赛亚·伯林当年写过篇文章“论科学化的历史学”(The Concept of Scientific History),主旨是探讨历史学是否也能像科学那样有个客观标准,凭那时的手段和见识,这问题自然无解。也怪伯老师在牛津待的时间忒长,没和同时代剑桥的图灵过过招。但是伯林引用了英国前辈历史学家亨利·托马斯·巴克尔(Henry Thomas Buckle)的话说:历史学之所以没变成科学,主要是因为历史学家的智力不如自然科学家。他设想如果伽利略、牛顿、拉普拉斯有时间顺手玩点历史的话,历史学,说不定早就变成科学的一分子了。话虽损了点,但是出自历史学家自己之口,至少诚恳,而且还不能随便给他扣“智商歧视”的帽子,就像黑人或犹太人开自己同胞的玩笑,外人管不着。依我看,“科学化的历史学”搁现在就是“计算历史学”。

司马迁被腐刑之后,中国就没人干实地考据了。即使人家都做好了,也懒得看。现而今,坐绿皮火车去趟莫斯科图书馆回来就算中国史学界大事儿。其实要是真不想去做实际工作,莫斯科都太远,去东莞整一山寨手机,躺床上就能指导博士生。不信?我先出个题:“女权运动五百年全球发展史”。然后在Google Ngrams里偷偷敲“penis-逗号-clitoris”,并把起始时间设在公元1500年。瞧好吧,您呐。所谓“秀才不出门,便知天下事”。对了,这句话百度译为:Without going outdoors, scholar knows all the world's affairs。也可以意味深长地简化为:Lying in the beds, the world can be in your heads。

netease 本文来源:东方早报 责任编辑:王晓易_NE0011
分享到:
跟贴0
参与0
发贴
为您推荐
  • 推荐
  • 热点
  • 娱乐
  • 体育
  • 财经
  • 科技
  • 军事
  • 汽车

威斯康星州最大县完成重新计票:拜登优势不减反增

新闻 拜登 重新计票
|
界面新闻
16小时前
3870 跟贴3870

人民锐评:马保国闹剧,该立刻收场了

新闻 马保国 武德
| 人民网-人民日报
13小时前
188741 跟贴188741

指责宾州出现“选票操纵”,特朗普发推:1126940张选票凭空产生

新闻 唐纳德·特朗普 拜登
|
环球网
11小时前
8662 跟贴8662

借2万还60多万还不够 85后白领卖车还欠亲友10多万

新闻 高利贷 孙磊
|
南方Plus
8小时前
4198 跟贴4198

澳大利亚官员:中方“毁灭性打击”

新闻 中国 澳大利亚
|
观察者网
1天前
27756 跟贴27756

福建莆田两车碰撞致9死7伤,死者多为附近打零工的菜农

新闻 莆田 莆田市
| 新京报
10小时前
2663 跟贴2663

日媒惊叹:165个国家,中国北斗导航精度已超过美国GPS

新闻 北斗卫星 gps
|
每日经济新闻
1天前
2498 跟贴2498

河南一女纪委书记被抛尸黄河案疑点重重 失踪多日却无人报案$2020

新闻 原阳县 中牟县
|
陕西法制网
16小时前
120473 跟贴120473

伊朗顶级核科学家遇袭身亡 被认定领导秘密核武项目

新闻 国防部 伊朗
|
界面新闻
1天前
106410 跟贴106410

第一观察|习主席东博会致辞释放了什么信号?

新闻 习主席 东博会
|
新华网
6小时前
443 跟贴443

伊朗常驻联合国代表警告美以:将采取一切措施保护该国人民

新闻 伊朗 联合国
|
环球网
16小时前
0 跟贴0

伊朗核科学家遇害后,德黑兰爆发抗议活动:“向美国开战!”

新闻 伊朗 美国
|
环球网
15小时前
8100 跟贴8100

伊朗最高领袖:将就核物理学家遇害一事展开报复

新闻 伊朗 物理学家
|
界面新闻
9小时前
3527 跟贴3527

太疯狂!中一套暴赚500万 深圳豪宅"打新"遭万人哄抢

新闻 华润城 大户型
|
中国基金报
5小时前
9418 跟贴9418

深圳“入职聚会疑遭同事强奸案”维权人:嫌犯已因强奸罪被判入狱

新闻 强奸罪 强奸案
|
界面新闻
9小时前
927 跟贴927

嫌哭声太吵?日媒:将男婴尸体放冰箱冷冻,中国籍男女在日被捕

新闻 中国籍 尸体
|
环球网
1天前
31 跟贴31

没错 美国人已经在讨论“清算特朗普”了

新闻 唐纳德·特朗普 拜登
|
参考消息
2天前
23412 跟贴23412

罕见!正副厅长同时落马,丈夫妻子双双投案

新闻 副厅长 厅长
|
长安街知事
7小时前
639 跟贴639

TikTok网红为何能告赢特朗普?是字节跳动的精心安排?

新闻 唐纳德·特朗普 tiktok
|
观察者网
1小时前
181 跟贴181

家属回应金龙泉创始人术后脑死亡:耳鼻喉医生做脑外科手术,医院

新闻 金龙泉 脑死亡
|
梨视频
2天前
47311 跟贴47311

中国正式宣布!对澳实施临时反倾销措施 澳商人郁闷了

新闻 澳大利亚 反倾销
|
每日经济新闻
2天前
3738 跟贴3738

路透社记者称中国媒体“暗示”新冠病毒或来源于国外,赵立坚:病

新闻 病毒 赵立坚
|
环球时报-环球网
1天前
0 跟贴0

被特朗普“搅局”四年,“第四权力中心”——美国政治游说业又“

新闻 唐纳德·特朗普 拜登
|
红星新闻
1天前
13 跟贴13

丹麦首相为“水貂门”含泪道歉但坚持扑杀,被批“鳄鱼眼泪”

新闻 丹麦 弗雷德里克森
|
澎湃新闻
1天前
0 跟贴0

印度运载火箭:设计“奇葩”,但运力进步明显

新闻 火箭 火箭发射
|
澎湃新闻
2天前
284 跟贴284

快讯!外媒:伊朗誓言要就核科学家遇害事件报复后,以色列各使馆

新闻 以色列 伊朗
|
环球网
8小时前
3004 跟贴3004

猪大肠甩上台湾“立法院”,台媒:有史以来“最血腥的一天”

新闻 立法院 民进党
|
环球网
20小时前
18 跟贴18

和马拉多纳遗体合影后,殡仪馆员工道歉:瞬间做出拍照决定,请求

新闻 佩卢西托 费尔南德斯
|
环球网
1天前
0 跟贴0

超40万人!俄罗斯军队开始大规模接种新冠疫苗

新闻 疫苗 接种
|
新华国际
19小时前
985 跟贴985

离开白宫后,“第一女儿”伊万卡一家有了新去向

新闻 伊万卡 唐纳德·特朗普
|
环球时报
1天前
3821 跟贴3821

“医生劝病人控制饮食反被家属打骨折”续:打人者涉故意伤害罪被

新闻 拘留 法庭
|
红星新闻
3小时前
246 跟贴246

五角大楼“智囊团”迎来“大清洗”,美媒预测特朗普“特赦名单”

新闻 唐纳德·特朗普 五角大楼
|
环球时报
20小时前
931 跟贴931

港媒:林郑月娥承认被美国制裁后没银行能提供服务,她每日用现金

新闻 林郑月娥 美国
|
环球网
18小时前
6908 跟贴6908

科学家证实发现第二颗“迷你月球”:约小汽车大小

新闻 月球 地球
|
中国新闻网
1天前
9 跟贴9

印媒报道巴基斯坦总理批准化学阉割强奸犯后,印度网友开始自黑

新闻 巴基斯坦 印度
|
环球网
2天前
2181 跟贴2181

希腊出台一系列税收优惠政策 以吸引外国人定居

新闻 希腊 税收
|
中国新闻网
1天前
11 跟贴11

外媒:马拉多纳朋友透露,他曾想过对自己遗体做防腐处理

新闻 佩卢西托 张晓雅
|
环球网
1天前
5 跟贴5

殡仪馆工作人员与马拉多纳遗体自拍,解雇后收到死亡威胁

新闻 马拉多纳 遗体
|
澎湃新闻
2天前
10 跟贴10

林民旺:印度这次封杀中国APP实属突然

新闻 印度 中印
|
环球网
1天前
0 跟贴0

统计:韩国人口情况堪忧 已连续11个月自然减少

新闻 韩国 总人口
|
中国新闻网
1天前
3 跟贴3

辛巴致歉,拿6000万“退一赔三”,打假人:应该“退一赔十”!律师解释来了

红星新闻
2020-11-28 20:03:59

性骚扰案将开庭,56岁朱军穿黑衣公开亮相,妻子穿粉裙优雅大方

娱乐江湖百晓生
2020-11-28 19:42:09

墨西哥总统,再度拒绝承认拜登赢!特朗普翻盘还有一线希望

吴胜彪专栏
2020-11-27 17:38:37

19岁靠唱歌一天赚1万,春晚都请不动他,却没人敢说他耍大牌

草莓奶昔
2020-11-28 19:42:34

甩了相爱13年的蒋欣,从3线混到18线,现在的蒋欣让他高攀不起

小司谈热点
2020-11-26 12:08:29

男人与你“亲热”时,提出这三个要求,不是喜欢你,是把你当傻子

第一心理
2020-11-27 12:18:45

医院副院长出轨女下属,安排情人住楼下,光着身子被捉奸,院方:已辞退

五彩斑斓的世界
2020-11-28 04:14:10

被家里人骂变态,却在国际封神!最土农村小伙,打了所有人的脸

海峡都市报
2020-11-27 12:27:53

3-0疯狂庆祝!国米只差领头羊2分,张康阳还有机会,孔蒂拼了

排头体育
2020-11-28 23:57:10

特朗普小儿子萌翻了!万圣节扮成小老虎,高冷第一夫人都被逗笑

红袖说国际
2020-11-28 15:47:35

老干妈继承者们闹心:大儿子投资房产烂尾 二儿子改配方业绩下滑

金融界
2020-11-27 19:41:52

情况有变?华为正式就鸿蒙OS发声,花粉可能要失望了

飞少娱乐
2020-11-28 10:13:58

抵制远古吹!克洛普称有梅西C罗,马拉多纳在当今未必是第一人!

氧气是个地铁
2020-11-28 17:04:38

13年印了20万亿!2008年以后印的钱,都进了1%富人的钱包……

功夫财经
2020-11-28 14:25:04

张含韵一个广告让蒙牛挣了足足20多个亿

温暖美少女
2020-11-25 20:05:50

梅州80后任广州天河区副区长!

大美客家
2020-11-28 13:19:37

欧洲议会通过所谓“挺台议案”,鼓动欧盟会员国支持台湾参与WHO

海峡导报社
2020-11-28 09:13:24

《除暴》原型张君是中国第一悍匪吗?不,白宝山才是第一悍匪

巧装时尚秀
2020-11-28 12:43:59

一觉醒来,大选再生波澜?外媒:真正输家已浮出水面,不是特朗普

视听中国
2020-11-28 22:55:20

中国不讲武德?中方敲定高原水电开发决策,印官员:打不赢就要挟

军事评论V
2020-11-28 17:47:55
2020-11-29 02:44:59
+ 加载更多新闻
×

【TED】机器会抢走我们的工作吗?

热点新闻

态度原创

网易号

查看全部
阅读下一篇

返回网易首页 返回财经首页