网易首页 > 网易财经 > 正文

图书馆,维基百科和大数据

0
分享至
  维基百科分类系统的一个片段

尼 克

美国大学的图书馆学院系现在纷纷改名为“信息”或“信息管理”。一直领风气之先的加州大学伯克利分校,老早就把“图书馆学院”改名为“信息管理学院”,最近干脆把“管理”俩字也拿掉,就叫“信息学院”(School of Information),简称ischool,尽管是全校最小的学院,但这名字叫起来时髦、性感。全美图书馆专业最强的华盛顿大学,紧跟伯克利,也把图书馆学院改名为信息学院,也简称ischool。看起来真是大势所趋,有点像上世纪七十年代初全美大学纷纷设立计算机系的劲头,按这速度,应该很快会传遍全美。我估计这有几方面的因素:第一,图书的物理体现正在快速变化,越来越多的人从书之外的媒体获得信息,即使是书,也从纸质变为电子;第二,新的信息载体需要新的管理方式,大数据也带来图书馆的革命;第三,更易招生,作为职业教育的“图书馆”院系,生源第一重要,如果不变革,更无法同商学院、法学院、医学院竞争了。伯克利真是不想再培养图书馆管理员了,这事貌似北大更有经验;第四,方便募款,伯克利信息学院的新募款对象包括了谷歌雅虎等科技新贵,如果还举着“图书馆学院”的牌子,估计“新钱”(new money)的大佬们才不会待见呢。

新名字并不只是新瓶装旧酒。伯克利改名后,课程设置也全部革新,不教怎么包书皮儿了,改教大数据。原来图书馆相关的课程已所剩无几,最流行的课程是信息查询(即搜索技术),数据挖掘,和信息可视化(Information Visualization)。改名后的第一任院长是伯克利著名的经济学家瓦里安(Hal Varian),以提出“信息经济学”和“网络经济学”闻名。他最近已离任前往谷歌担任首席经济学家。教授的成分也焕然一新,一些计算机科学家、经济学家和法学家加盟,而且信息学院和计算机等系科联合任命教授。教授中三分之一都是计算机博士毕业,而课程竟然有一半都是计算机课,如数据库、信息查询、网络与信息安全、大数据等。当然,除了计算机课程之外,也得有点别的,例如知识产权、社交媒体、信息经济学等,要不然真没法形成新学院的特色。某些号召力强且比较软性的课程则直接把视频摆到网上。除了本校教授,伯克利还从外边请人走穴,如亚马逊(Amazon)的前首席科学家安德烈斯·维根(Andreas Weigend),就两次开设“社交数据的进化”课程,尽管干货不多,但老头儿段子不少,讲的都是工业界正在发生的事,听起来倒也有趣。

谷歌、维基百科等也在努力改进信息的组织方式,以更方便计算机理解原始信息。谷歌的“知识图”(Knowledge Graph)就是一种新的语义知识库。谷歌把关于各种客体(object)的事实结构化,进而为谷歌的搜索引擎、机器翻译和其他应用提供基础语义信息。这些被结构化的语义信息的一个主要来源就是维基百科。维基百科中的人名、地名等都被结构化后,它们的格式可以通过元数据定义清楚,机器和人可以利用结构化的数据做更精准的语义搜索和关联。一个例子是维基百科的infobox(信息盒)。当我们在维基百科上搜索“Issac Newton”时,在页面的右上侧,就会呈现出“牛顿”的infobox,这个盒子里有关于牛顿的结构化信息,如生卒年月、毕业院校、老师是谁、所做贡献、受何人影响又影响过何人等。在这些信息之上,还可以进一步开发各种好玩的应用。前一阵,就有个学生写了一段简单的程序:挑出维基百科中的所有哲学家,在他们的infobox中找出受谁影响和影响别人的字段,然后画一张图,一个圈代表一个哲学家,影响度高的对应的圈就大一些。这些在现在的“信息”时代轻而易举可以做到的事情,在以前“图书馆”的时代,几乎不可能。

维基百科最常用的方式是输入关键词,然后得到一个或几个结果。其实它还有另一种按类查找的功能。例如,我们想知道在“物理学”的类别下,还有些什么子学科,那么输入“Category: Physics”,就可得到一个列表,它包括诸如“经典力学”“量子物理”“理论物理”等属于“物理学”的子学科,列表中的每一个项,在维基百科中被称为“子类”(subcategory)。有了这个分类,维基百科中的所有词条都可分门别类,维基百科在每个词条页面的底部,都会显示这个词条所属的所有类别。例如,“牛顿”就分属于“英国物理学家”、“卢卡斯数学教授”、“剑桥三一学院研究员”、“微积分历史”,甚至“1727年死去的人”等。我们由此点击“卢卡斯数学教授”,就可得到剑桥有史以来担任过“卢卡斯”讲座教授的所有人的名单,其中当然有上届已退休的霍金和本届的麦克-格林(Michael Green)。这个分类信息,程序和人都可读取。

上图展示了维基百科分类系统的一个片段。这里我们可以看到:“社会科学”是“科学”的子类,“科学”又是“知识”的子类;而“人文”是“文化”的子类,“文化”又是“社会”的子类,等等。

更多的例子:“矩阵论”是“线性代数”的子类,依次又是“代数”的子类,依次又是“数学”的子类。又如,“范冰冰”(Fan Bingbing)属于几个类,其中有“山东演员”“山东歌手”(范爷还会唱歌?)等。如果我们顺着“山东歌手”的类再往上爬,就可以到“山东音乐家”(这个类厉害),再往上爬,可到“中国音乐家”,又可到“亚洲音乐家”等等。

维基百科的这种信息分类技术,对于计算机科学家来说再熟悉不过。“面向客体的程序设计”(Object-Oriented,也有翻译为“面向目标”的,简称OO),就是这个思路。每个类(class)都可以有多个子类(subclass),每个子类也可以有多个超类(superclass)。只不过OO那里叫class,维基百科这里叫category;那里叫“实例”(instance),这里叫“文章”(article),结构和原理是一样的。其实电子书的内容将来也可按此方式组织,对纸质书的研究是旧的死学问,而对电子书的研究则是新的活学问。从这个角度看,伯克利将图书馆学院改名信息学院,并改革课程设置,是顺历史潮流而动。

在谷歌知识图和维基百科之前,早就有关于知识管理的理论研究。一种最近被经常提到的方法:“形式化概念分析”(Formal Concept Analysis,简称FCA),是由德国数学家鲁道夫-威勒(Rudolf Wille)在1984年提出的。他用代数中一种被称为“格”(Lattice)的结构为概念分类提供了数学基础。每个概念都有一个客体集和属性集,客体集就是这个概念的外延,属性集就是这个概念的内涵。一个概念越广泛,它的外延自然越大,而内涵越小。动物的外延比人要大,因为客体集更大;而人的内涵比动物要大,因为人更特殊。在维基百科中,子类的外延自然比父类的外延要小,例如,“剑桥数学家”或“英国统计学家”类中的一员必定出现在“英国数学家”类中。

程序设计中的OO和维基百科分类都可以用“格”来刻画。在程序设计中,“格”的概念清晰可寻,而在维基百科中,因为涉及的编辑人员鱼龙混杂,也缺乏自动化工具,分类的概念就没有被严谨地遵循。有时会闹笑话。比如在维基百科的分类系统中,可以从“物理学”类出发,一级一级地通过子类,到达“数学”。如下所示:

物理学(Physics) 应用及交叉学科物理学(Applied and interdisciplinary physics) 天体物理学(Astrophysics) 宇宙(Universe) 生命(Life) 社会(Society) 教育(Education) 学术(Academia) 学术学科(Academic disciplines) 社会科学(Social sciences) 人类学(Anthropology) 语言学(Linguistics) 认知科学(Cognitive science) 记忆(Memory) 知识(Knowledge) 认识论(Epistemology) 认知(Cognition) 思维(Thought) 抽象(Abstraction) 数学(Mathematics)

也就是说“数学”是“物理学”的子类,这有点说不过去了。稍微分析一下,我们可以看出几个跳跃比较大的步骤:“天体物理学”的子类中有“宇宙”,“宇宙”和“宇宙学”可不是一回事。而把“学术”置于“教育”之下也不对,而“认知科学”又凭什么被置于“语言学”之下。

更不靠谱的是,从“数学”类出发,通过若干步的子类运算后,还有一条路径可以到达“物理学”,也就是说“物理学”又是“数学”的子类。从“格”的角度看,“物理学”就等于“数学”了。其实不用懂什么数学原理,直觉上,我们就知道这肯定有问题。“格”里不能有循环。

这样的问题,目前还不严重,因为维基百科的用户当下主要是人,没什么人会有兴趣一层一层地爬分类结构。但如果以后有计算机程序想了解人类学问是怎样分门别类的,那,这问题可就大了。目前,DBPedia正在从维基百科中抽取结构化的信息,形成知识的本体论(ontology),这些本体论就可以被用作其他程序的基础信息,例如,自然语言理解和翻译。如果基本的分类都做不好,那上层的工作结果肯定也不靠谱。把数学、物理分类搞差了,问题不大,如果把范爷分错了类,那是要犯政治错误的。顺便说一句,这个分类循环问题是本文作者去年帮儿子做大数据编程作业时发现的,最后声明一下本人没有代笔儿子的作业,他程序编得比我溜多了,而且正在考虑怎么解决这个问题呢。

相关推荐
热点推荐
4月18日晚!林志玲参加北影节颁奖典礼后,突然在后台泪崩爆哭!

4月18日晚!林志玲参加北影节颁奖典礼后,突然在后台泪崩爆哭!

小娱乐悠悠
2024-04-19 15:42:48
福特董事长怒斥:美国汽车业遭华盛顿政客反复折腾

福特董事长怒斥:美国汽车业遭华盛顿政客反复折腾

观察者网
2024-04-18 17:42:03
CCTV5直播!国足VS泰国,韦世豪挑大梁,张琳芃或迎百场纪念仪式

CCTV5直播!国足VS泰国,韦世豪挑大梁,张琳芃或迎百场纪念仪式

林子说事
2024-04-19 12:03:12
曝光邪教性丑闻,这限制级爽片杀疯了

曝光邪教性丑闻,这限制级爽片杀疯了

独立鱼
2024-04-18 23:31:10
袭击以色列后,伊朗发现几乎被全球孤立,俄罗斯要雪中送炭?

袭击以色列后,伊朗发现几乎被全球孤立,俄罗斯要雪中送炭?

奇思妙想草叶君
2024-04-17 18:47:56
外星人可能根本不是“人”,他们的生命形态或许超乎想象!

外星人可能根本不是“人”,他们的生命形态或许超乎想象!

宇宙时空
2024-04-18 15:56:22
麒麟9010性能究竟如何?实测最新跑分97万,但骁龙8G3是220万+

麒麟9010性能究竟如何?实测最新跑分97万,但骁龙8G3是220万+

奇奇怪怪的冒险
2024-04-18 16:47:21
鸿蒙系统决定放弃Linux内核,编程语言也从Java转为Ar

鸿蒙系统决定放弃Linux内核,编程语言也从Java转为Ar

搞笑的阿万
2024-04-19 15:41:25
迪丽热巴1664大赏,这身材太顶了

迪丽热巴1664大赏,这身材太顶了

娱乐圈人物大赏
2024-04-13 15:07:30
舒服了!婆婆大夸儿子有本事,彩礼没出女方倒贴,女方直接脱婚纱

舒服了!婆婆大夸儿子有本事,彩礼没出女方倒贴,女方直接脱婚纱

看晓天下事
2024-04-17 19:11:56
离婚19年,俩人在广州某高档小区相遇,男子是房主,女子是保洁员

离婚19年,俩人在广州某高档小区相遇,男子是房主,女子是保洁员

小月文史
2024-04-12 15:25:51
美众议院将表决援乌法案,议员:谁赞成必须亲自上战场

美众议院将表决援乌法案,议员:谁赞成必须亲自上战场

环球时报国际
2024-04-18 14:24:34
北京网友说|三十而立,奔赴下一程山海 ——记中国全功能接入国际互联网三十周年

北京网友说|三十而立,奔赴下一程山海 ——记中国全功能接入国际互联网三十周年

燕鸣
2024-04-18 10:52:32
中国老年痴呆人数全球第一,是喝茶惹的祸?茶喝越多,痴呆越易

中国老年痴呆人数全球第一,是喝茶惹的祸?茶喝越多,痴呆越易

39健康网
2024-04-16 18:00:02
我国减持921亿美债,日本近乎全部“接盘”,为何偏要逆势增持?

我国减持921亿美债,日本近乎全部“接盘”,为何偏要逆势增持?

云姐闲聊
2024-04-18 17:49:38
最新研究:中国近一半的主要城市正在下沉!使2.7亿人面临风险,给中国造成每年超过75亿损失

最新研究:中国近一半的主要城市正在下沉!使2.7亿人面临风险,给中国造成每年超过75亿损失

和讯网
2024-04-19 15:45:23
因外卖经常被偷,大学生在其中投毒致另一学生死亡?湖南湘潭大学回应

因外卖经常被偷,大学生在其中投毒致另一学生死亡?湖南湘潭大学回应

极目新闻
2024-04-19 15:53:18
CBA搞笑一幕!杜润旺挑逗王博,吓王博一跳,球迷乐翻

CBA搞笑一幕!杜润旺挑逗王博,吓王博一跳,球迷乐翻

体育哲人
2024-04-19 17:11:51
陕西包工头发现漂亮妻子出轨,在卧室装监控,情夫身份让他暴走

陕西包工头发现漂亮妻子出轨,在卧室装监控,情夫身份让他暴走

纪实录
2024-04-16 20:15:05
辛普森死了 “杀妻案”真相来了 目击者打破30年沉默 声称辛普森带着4人杀死前妻

辛普森死了 “杀妻案”真相来了 目击者打破30年沉默 声称辛普森带着4人杀死前妻

娱乐圈酸柠檬
2024-04-19 07:04:43
2024-04-19 18:18:44

财经要闻

围猎三丰智能的神秘基金设骗局转移资产

头条要闻

以色列袭击伊朗 当天系伊朗最高领袖哈梅内伊85岁生日

头条要闻

以色列袭击伊朗 当天系伊朗最高领袖哈梅内伊85岁生日

体育要闻

安息吧勇士王朝,2013-2023

娱乐要闻

北影节开幕之夜,内娱女星千娇百媚

科技要闻

最沉默的李想,最便宜的理想

汽车要闻

风神L7预售 东风汽车北京车展阵容公布

态度原创

游戏
房产
亲子
旅游
公开课

《天国:拯救2》突然公布预告 玩家震惊到想哭

房产要闻

国企下场,海口疯狂抢地!

亲子要闻

网友表示宝宝的笑点真的好低,网友表示宝宝的笑点真的好低。

旅游要闻

西宁“下南关”:高原老街的烟火气

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版
×