网易首页 > 网易财经 > 正文

图书馆,维基百科和大数据

0
分享至
  维基百科分类系统的一个片段

尼 克

美国大学的图书馆学院系现在纷纷改名为“信息”或“信息管理”。一直领风气之先的加州大学伯克利分校,老早就把“图书馆学院”改名为“信息管理学院”,最近干脆把“管理”俩字也拿掉,就叫“信息学院”(School of Information),简称ischool,尽管是全校最小的学院,但这名字叫起来时髦、性感。全美图书馆专业最强的华盛顿大学,紧跟伯克利,也把图书馆学院改名为信息学院,也简称ischool。看起来真是大势所趋,有点像上世纪七十年代初全美大学纷纷设立计算机系的劲头,按这速度,应该很快会传遍全美。我估计这有几方面的因素:第一,图书的物理体现正在快速变化,越来越多的人从书之外的媒体获得信息,即使是书,也从纸质变为电子;第二,新的信息载体需要新的管理方式,大数据也带来图书馆的革命;第三,更易招生,作为职业教育的“图书馆”院系,生源第一重要,如果不变革,更无法同商学院、法学院、医学院竞争了。伯克利真是不想再培养图书馆管理员了,这事貌似北大更有经验;第四,方便募款,伯克利信息学院的新募款对象包括了谷歌雅虎等科技新贵,如果还举着“图书馆学院”的牌子,估计“新钱”(new money)的大佬们才不会待见呢。

新名字并不只是新瓶装旧酒。伯克利改名后,课程设置也全部革新,不教怎么包书皮儿了,改教大数据。原来图书馆相关的课程已所剩无几,最流行的课程是信息查询(即搜索技术),数据挖掘,和信息可视化(Information Visualization)。改名后的第一任院长是伯克利著名的经济学家瓦里安(Hal Varian),以提出“信息经济学”和“网络经济学”闻名。他最近已离任前往谷歌担任首席经济学家。教授的成分也焕然一新,一些计算机科学家、经济学家和法学家加盟,而且信息学院和计算机等系科联合任命教授。教授中三分之一都是计算机博士毕业,而课程竟然有一半都是计算机课,如数据库、信息查询、网络与信息安全、大数据等。当然,除了计算机课程之外,也得有点别的,例如知识产权、社交媒体、信息经济学等,要不然真没法形成新学院的特色。某些号召力强且比较软性的课程则直接把视频摆到网上。除了本校教授,伯克利还从外边请人走穴,如亚马逊(Amazon)的前首席科学家安德烈斯·维根(Andreas Weigend),就两次开设“社交数据的进化”课程,尽管干货不多,但老头儿段子不少,讲的都是工业界正在发生的事,听起来倒也有趣。

谷歌、维基百科等也在努力改进信息的组织方式,以更方便计算机理解原始信息。谷歌的“知识图”(Knowledge Graph)就是一种新的语义知识库。谷歌把关于各种客体(object)的事实结构化,进而为谷歌的搜索引擎、机器翻译和其他应用提供基础语义信息。这些被结构化的语义信息的一个主要来源就是维基百科。维基百科中的人名、地名等都被结构化后,它们的格式可以通过元数据定义清楚,机器和人可以利用结构化的数据做更精准的语义搜索和关联。一个例子是维基百科的infobox(信息盒)。当我们在维基百科上搜索“Issac Newton”时,在页面的右上侧,就会呈现出“牛顿”的infobox,这个盒子里有关于牛顿的结构化信息,如生卒年月、毕业院校、老师是谁、所做贡献、受何人影响又影响过何人等。在这些信息之上,还可以进一步开发各种好玩的应用。前一阵,就有个学生写了一段简单的程序:挑出维基百科中的所有哲学家,在他们的infobox中找出受谁影响和影响别人的字段,然后画一张图,一个圈代表一个哲学家,影响度高的对应的圈就大一些。这些在现在的“信息”时代轻而易举可以做到的事情,在以前“图书馆”的时代,几乎不可能。

维基百科最常用的方式是输入关键词,然后得到一个或几个结果。其实它还有另一种按类查找的功能。例如,我们想知道在“物理学”的类别下,还有些什么子学科,那么输入“Category: Physics”,就可得到一个列表,它包括诸如“经典力学”“量子物理”“理论物理”等属于“物理学”的子学科,列表中的每一个项,在维基百科中被称为“子类”(subcategory)。有了这个分类,维基百科中的所有词条都可分门别类,维基百科在每个词条页面的底部,都会显示这个词条所属的所有类别。例如,“牛顿”就分属于“英国物理学家”、“卢卡斯数学教授”、“剑桥三一学院研究员”、“微积分历史”,甚至“1727年死去的人”等。我们由此点击“卢卡斯数学教授”,就可得到剑桥有史以来担任过“卢卡斯”讲座教授的所有人的名单,其中当然有上届已退休的霍金和本届的麦克-格林(Michael Green)。这个分类信息,程序和人都可读取。

上图展示了维基百科分类系统的一个片段。这里我们可以看到:“社会科学”是“科学”的子类,“科学”又是“知识”的子类;而“人文”是“文化”的子类,“文化”又是“社会”的子类,等等。

更多的例子:“矩阵论”是“线性代数”的子类,依次又是“代数”的子类,依次又是“数学”的子类。又如,“范冰冰”(Fan Bingbing)属于几个类,其中有“山东演员”“山东歌手”(范爷还会唱歌?)等。如果我们顺着“山东歌手”的类再往上爬,就可以到“山东音乐家”(这个类厉害),再往上爬,可到“中国音乐家”,又可到“亚洲音乐家”等等。

维基百科的这种信息分类技术,对于计算机科学家来说再熟悉不过。“面向客体的程序设计”(Object-Oriented,也有翻译为“面向目标”的,简称OO),就是这个思路。每个类(class)都可以有多个子类(subclass),每个子类也可以有多个超类(superclass)。只不过OO那里叫class,维基百科这里叫category;那里叫“实例”(instance),这里叫“文章”(article),结构和原理是一样的。其实电子书的内容将来也可按此方式组织,对纸质书的研究是旧的死学问,而对电子书的研究则是新的活学问。从这个角度看,伯克利将图书馆学院改名信息学院,并改革课程设置,是顺历史潮流而动。

在谷歌知识图和维基百科之前,早就有关于知识管理的理论研究。一种最近被经常提到的方法:“形式化概念分析”(Formal Concept Analysis,简称FCA),是由德国数学家鲁道夫-威勒(Rudolf Wille)在1984年提出的。他用代数中一种被称为“格”(Lattice)的结构为概念分类提供了数学基础。每个概念都有一个客体集和属性集,客体集就是这个概念的外延,属性集就是这个概念的内涵。一个概念越广泛,它的外延自然越大,而内涵越小。动物的外延比人要大,因为客体集更大;而人的内涵比动物要大,因为人更特殊。在维基百科中,子类的外延自然比父类的外延要小,例如,“剑桥数学家”或“英国统计学家”类中的一员必定出现在“英国数学家”类中。

程序设计中的OO和维基百科分类都可以用“格”来刻画。在程序设计中,“格”的概念清晰可寻,而在维基百科中,因为涉及的编辑人员鱼龙混杂,也缺乏自动化工具,分类的概念就没有被严谨地遵循。有时会闹笑话。比如在维基百科的分类系统中,可以从“物理学”类出发,一级一级地通过子类,到达“数学”。如下所示:

物理学(Physics) 应用及交叉学科物理学(Applied and interdisciplinary physics) 天体物理学(Astrophysics) 宇宙(Universe) 生命(Life) 社会(Society) 教育(Education) 学术(Academia) 学术学科(Academic disciplines) 社会科学(Social sciences) 人类学(Anthropology) 语言学(Linguistics) 认知科学(Cognitive science) 记忆(Memory) 知识(Knowledge) 认识论(Epistemology) 认知(Cognition) 思维(Thought) 抽象(Abstraction) 数学(Mathematics)

也就是说“数学”是“物理学”的子类,这有点说不过去了。稍微分析一下,我们可以看出几个跳跃比较大的步骤:“天体物理学”的子类中有“宇宙”,“宇宙”和“宇宙学”可不是一回事。而把“学术”置于“教育”之下也不对,而“认知科学”又凭什么被置于“语言学”之下。

更不靠谱的是,从“数学”类出发,通过若干步的子类运算后,还有一条路径可以到达“物理学”,也就是说“物理学”又是“数学”的子类。从“格”的角度看,“物理学”就等于“数学”了。其实不用懂什么数学原理,直觉上,我们就知道这肯定有问题。“格”里不能有循环。

这样的问题,目前还不严重,因为维基百科的用户当下主要是人,没什么人会有兴趣一层一层地爬分类结构。但如果以后有计算机程序想了解人类学问是怎样分门别类的,那,这问题可就大了。目前,DBPedia正在从维基百科中抽取结构化的信息,形成知识的本体论(ontology),这些本体论就可以被用作其他程序的基础信息,例如,自然语言理解和翻译。如果基本的分类都做不好,那上层的工作结果肯定也不靠谱。把数学、物理分类搞差了,问题不大,如果把范爷分错了类,那是要犯政治错误的。顺便说一句,这个分类循环问题是本文作者去年帮儿子做大数据编程作业时发现的,最后声明一下本人没有代笔儿子的作业,他程序编得比我溜多了,而且正在考虑怎么解决这个问题呢。

相关推荐
热点推荐
李鹏总理的6位家人:3位子女都是国家栋梁,如今都官至何位?

李鹏总理的6位家人:3位子女都是国家栋梁,如今都官至何位?

小啾咪侃侃史
2024-04-19 09:58:17
马树山事件之后:从此再无马树山!

马树山事件之后:从此再无马树山!

剑鸣涛声
2024-04-19 14:14:34
葛斯齐质疑大S具俊晔电梯合照为离婚前所拍,大S方罕见服软回应

葛斯齐质疑大S具俊晔电梯合照为离婚前所拍,大S方罕见服软回应

扒虾侃娱
2024-04-19 19:51:15
孙颖莎4-2战胜郑怡静!女单半决赛对阵出炉,王曼昱迎战张本美和

孙颖莎4-2战胜郑怡静!女单半决赛对阵出炉,王曼昱迎战张本美和

湘楚风云
2024-04-19 21:23:34
有人玩命,有人划水,赵奕欢却把《乘风2024》搞成浓郁夜店风

有人玩命,有人划水,赵奕欢却把《乘风2024》搞成浓郁夜店风

马庆云的影音娱
2024-04-19 13:43:47
震惊!原来1999年,燃气公司就发明了偷气的技术,结果东窗事发!

震惊!原来1999年,燃气公司就发明了偷气的技术,结果东窗事发!

杂谈哥闲谈
2024-04-18 23:41:51
32岁的我在火车上,做了对不起我老公的事,现在想起来特别后悔

32岁的我在火车上,做了对不起我老公的事,现在想起来特别后悔

社会潜伏者
2024-04-19 16:52:19
4月19日,吴亦凡冲上热搜!

4月19日,吴亦凡冲上热搜!

娱圈小愚
2024-04-19 16:01:34
美国已在菲律宾部署中程导弹,验证了近年和近期的推断

美国已在菲律宾部署中程导弹,验证了近年和近期的推断

邵旭峰域
2024-04-17 14:34:24
反对调休!官媒发声,放假不能是“假放”!专家:放假与国际接轨

反对调休!官媒发声,放假不能是“假放”!专家:放假与国际接轨

小怪吃美食
2024-04-20 00:03:00
普京透心凉!除了美国的610亿美元,乌克兰还将收到420亿美元援助

普京透心凉!除了美国的610亿美元,乌克兰还将收到420亿美元援助

娱宙观
2024-04-19 11:45:37
澳门世界杯20日赛程出炉:张本兄妹存在爆冷,国乒2人出局2人危险

澳门世界杯20日赛程出炉:张本兄妹存在爆冷,国乒2人出局2人危险

急行体育
2024-04-19 23:50:23
巴菲特预言:20年或50年后,日本和美国都将更强大,中国呢?

巴菲特预言:20年或50年后,日本和美国都将更强大,中国呢?

慎独赢
2024-04-19 18:15:03
某NBA巨星理发视频正被疯传!布克转发:哥们你把我搞懵了!笑死

某NBA巨星理发视频正被疯传!布克转发:哥们你把我搞懵了!笑死

直播吧
2024-04-19 10:11:56
轰动!俄罗斯居民银行卡突遭冻结,转账受限令人震惊

轰动!俄罗斯居民银行卡突遭冻结,转账受限令人震惊

亡海中的彼岸花
2024-04-19 11:18:36
马英九之女:被称为“全球第四美千金”,全台湾男人都想娶回家

马英九之女:被称为“全球第四美千金”,全台湾男人都想娶回家

通文知史
2024-04-18 22:00:03
再见马琳!国乒教练组重要决定,肖战被委以重任,刘国梁如释重负

再见马琳!国乒教练组重要决定,肖战被委以重任,刘国梁如释重负

忠橙家族
2024-04-19 01:10:03
按摩时,足浴技师问你“之前来过么?”可能在暗示你,别不当回事

按摩时,足浴技师问你“之前来过么?”可能在暗示你,别不当回事

毒舌混知所
2024-03-30 07:50:03
78比70,王思雨立功,四川险胜内蒙古,坎贝奇王者归来

78比70,王思雨立功,四川险胜内蒙古,坎贝奇王者归来

撒丁岛体育
2024-04-19 21:36:18
股市大事件!高层下达死命令拯救A股,下周周一行情要一飞冲天?

股市大事件!高层下达死命令拯救A股,下周周一行情要一飞冲天?

一树梨花红
2024-04-19 12:36:26
2024-04-20 03:38:44

财经要闻

新华资管香港的秘密:猛投地产或致巨亏

头条要闻

媒体:以色列对伊朗的反报复刀刀见血 要真的打痛伊朗

头条要闻

媒体:以色列对伊朗的反报复刀刀见血 要真的打痛伊朗

体育要闻

米切尔这次对线不会输了吧

娱乐要闻

北影节开幕之夜,内娱女星千娇百媚

科技要闻

最沉默的李想,最便宜的理想

汽车要闻

风神L7预售 东风汽车北京车展阵容公布

态度原创

本地
游戏
数码
亲子
军事航空

本地新闻

春色满城关不住|千阳春日限定美景上线了!

诸葛亮北伐路上的头号克星郭淮,王者之心里换成姜维能不能拿下?

数码要闻

5599元 华硕破晓Pro14笔记本开售:Ultra 5 125H+2.5K屏

亲子要闻

一岁多小孩推着妈妈,妈妈坐在孩子的小车上“我感觉他应该是自愿的”

军事要闻

以军打击伊朗7处目标 伊拉克等地上空出现大量战机

无障碍浏览 进入关怀版
×