GWeb Read: wikipedia与semantic web

- sayonly.com english | other wiki的优势

只说在Google Home Base一文中谈到了semantic web（语义网，以下简称sw），并且认为google base是google在sw的试验，在只说下这个结论（或者说是预言）的时候，国外blogosphere和媒体尚未有将google base与sw联系在一起的讨论，到现在，已经一片火热了，甚至已经出现了与之相关的应用。wikipedia与sw的关系，国外已经讨论非常多了，也有专门的论文，这里简单引述一些观点，并且，分析一下wikipedia（或者也可以说是所有wiki）在实现上面的优势。

1，问题提出
在今年8月份wikipedia组织的会议wikimania上，德国Karlsruhe大学的人工智能学院提交了一个题为"wikipedia和sw，缺失的链接"（参考介绍材料）的报告，是以wikipedia的一个问题开始的，这个问题是，如何得到60年代以来不是肖恩.康拉利主演詹姆士.邦德（007）的电影。显然wikipedia已经整理了这个内容，只是不能自动的将它找出来。这个问题给wikipedia提出了更高的知识结构化的要求。

目前，wikipedia是一个分类系统，类似于Open Directory Project，这是对互联网站点的分类系统；wordnet，这是一个英文分词的数据库。而wikipedia是对于百科知识的一个分类系统（category system），一个词条对应相应的解释，同时wikipedia提供一个查询系统，可以用来查找感兴趣的知识，这个查询的实现机制并不是类似于 google的全文索引方式。

显然，wikipedia因为其组织方式已经具备了基本的文档结构化，词条对应内容，内容中又涉及到的词条，对应于另外的内容，于是这些内容通过链接的形式形成一个结构化的系统，想象一下，一个词条的内容中包含了多个词条，这些包含在内容中的其他词条，就构成了这个词条的相关知识。如果绘图，就会是一个发射形状的结构图。

wikipedia的这个特性使得以完美知识结构的系统为己任的工程师和研究者们将它跟语义网（sw）联系起来，并赋予知识联想以及诸如詹姆士.邦德的电影智能查找的任务。这一定程度上承认了wikipedia的知识组织确实有它的价值，另一方面，也可以说是wiki组织方面拥有其他网络应用所不具有的简单、结构化的特征。

2，再啰嗦一下semantic web
在google home base文章里面已经谈过一些概念和应用了，感兴趣请查阅那篇文章。这里补充几点。

我们可以初浅的认为sw解决了这样两个问题：一是提示和联想，就是查阅一个内容时，自动提示和联想相关的内容，当然最基本的提示现在的搜索引擎也能做得到，例如搜索"只说给你听"时，提示到哪里去下载许如芸的这首歌曲，或者提示你到哪里购买许如芸包含这首歌曲的cd（当然这可能是一个广告，呵呵），不过，更进一步就做不到了，例如根据音乐联想到演唱会，许如芸要开演唱会了，给你一个演唱会的链接。音乐和演唱会是两个不同的内容，除非内容良好的结构化，否则即使建立起这两者之间的联系，也会胡乱搜一气，就像询问一个只是算术很快的天才儿童却总是答非所问一样。

另一个是智能化搜索，智能化搜索可以分开成两个部分，一是对提问的理解，这个暂不考虑，虽然对提问的理解可能会需要sw的知识库。一是理解了搜索意图之后，取得搜索的内容，这要求搜索源高度结构化，就是sw解决的问题。

sf（开源社区）上有一个名为semantikos的浏览器，当你打开一个sw的文档时，会给出它指定的相关链接，如图示

sw本身可以理解为这样一个模型，至于它在实际问题中，是不是需要根据用户意图或者对用户使用记录分析用户的用户喜好并对给他的相关链接进行调整，或者根据用户意图对结构化的内容进行匹配，就是实际应用的事儿了。

不过，即使w3c组织，也更期望有sw应用而非更系统的理论支持。

3，wikipedia与semantic web相关的研究和应用
wiki早期与sw相关的研究很多，早在2001年，就有人搞了个rdfwiki出来，这个rdfwiki不仅仅可以结构化文档，而且还可以将文档导出到一个N-Triples（w3c的结构化标准）的结构化文档。

上次google home base文章提到的gnowsis的狂想，其实包含了一个wiki方案，那个sw项目发布于2003年，将wiki页面等同于观点（idea），等同于观念（concept）。这个gnowsis一个人自己做，而且在fork mediawiki，所以大家都不大支持他。

ontowiki，这个提法很多了，只说见到最早的是cob project（Collaborative Ontology Building），在2003年左右就有一张解决wiki/blog/p2p的系统结构图，只说还是很喜欢这个图的。

似乎在后来wap/rss方案都由此衍生而来，后来在sf上有专门的项目，不过支持的人并不多。

wikimedia跟sw相关的最早的项目似乎是Wikispecies，不过由于种种原因难产，其后Erik Moeller还称那时想法还不成熟，之后就有Wikidata，是新结构化的数据库的项目，Erik Moeller和jimmy wales在在2004年9月开始讨论并实施这个项目，不得不承认Erik Moeller还是有些水准的，这个项目已经有几分google base的神韵了，不过这终于还是基于wiki方式的数据库，却没有Peter Norvig的眼光和推动力。

今年8月wikimania会议中，sw的讨论形成了一个中心，于是在会议期间，也就是8月7日，Semantic MediaWiki作为一个project启动了。

9月2日，在sw的w3c html邮件列表中提交候选。9月7日，在sf建立了一个开源项目semediawiki。10月7日， demo。

4，wikipedia如何实现semantic web
这里有一份wikipedia给出实施计划，说明了wikipedia具体将做什么，以及如何做，是根据wikimania会议的讨论修正而来。

已确定MediaWiki的扩展需要在wiki文章中扩展语义的评注。
1）文章之间的联接评注依靠可配置的关系（链接方式）
2）以简单的赋予结构化属性的数据值（simple data-values）评注文章
3）支持在不需要预先配置的情况下，使用各种数字属性的物理测量单位

也就是说，在现有wikipedia以及其他项目编辑管理方式的基础上，扩展语义的属性。在具体实施中，首先是引入一个管理系统，这个管理系统为用户编辑时增加方便的功能，例如搜索、提示；接下来，按一定的语法设置文章之间的链接，从文章中直接萃取出链接信息是技术可以实现的，但是，决定哪些需要链接的是编辑者，并且，注意到，这些链接信息是独立于文章的。

在这点上，有可能形成针对某些词条的模板，例如国家或者地区的词条，这可以用结构化的链接和模版来表示。

接下来，就会考虑在线的查询的工具了，提供结构化的输出以及开放某些接口。

然后以同样的方式，就可以提供基于新数据的内部服务，这些服务可以基于已经存在的工具，或者以特有的工具来体现社区中存在的链接等特殊数据带来的优势。w3c这里提供一个称为sqarql的语言，也可以实现这种语言。更进一步，可以提供一个简化的基于英语的查询语言使查询更为友好。

5，semantic mediawiki与google base比较
semantic mediawiki包含了wikipedia以及相关项目，在wikipedia原有编辑功能的基础上，提供了更多一些结构化的、语义的内容，这些内容可以是独立于现在wikipedia的文章，也可以替换现有的wikipedia的文章元素（例如链接）。从看到的材料来看，比较理想化，也没有仔细分析过可能出现的问题，例如spam，规范不统一等问题。

不过wikipedia本身是一个互联网的独立的应用，用户的输入输出（这里也可以看作是内容的产生/内容消费）都可以进行控制和追踪，而且wikipedia本身是词条对应知识的方式，本身简单而结构化，再加上wiki的文化支持，确实令人期待。

google base应该是google把控制从内容消费转到内容产生环节，显然Norvig对sw的理解要深刻得多，他在今年1月份都已经设想好了google如何实现sw，他提出了sw的4个实现的问题，所以这个google base的应用，可以称为google的home base（本垒）。因为只有控制了内容产生环节，才可能最大限度的防止spam，更进一步提高搜索和数据请求的质量。sw也并不是只要数据结构化就完了，想来大家都记得以前html的header段有一个meta的数据，可以用来指定一个html文档的数据类型，但是众多的spam使得它并不可信，以至于搜索引擎不再将它作为搜索排名的参考。

所以，只有控制了内容产生环节，才能通过技术手段来甄别可能的作弊，以及用户意图，不统一规范的问题等等。

如果只说有什么建议给google的话，那么可以建议google base推出针对某个特殊方面的解决方案，而不是仅仅一个base，例如，针对wikipedia的解决方案，并提供关于它的搜索功能，第三方工具，那么semantic mediawiki/wikidata这样的项目就不用做了。

6，总结
稍微总结几点，
wikipedia以为组织方式简单、结构化，是最可能实现局部sw的方案。结构化知识有利于实现输入输出，更利于对于用户行为的监控。

在google home base文章中，只说提到google开始控制互联网内容的产生，只说认为，只有对于内容提交有控制，才能保证sw的各个语义环节质量。

7，介绍材料
最后介绍几篇材料，有识之士可以翻译一下：
Wikipedia and the Semantic Web -- The missing links（pdf）
这个应该是在这次wikimania会议上面的
RDF primer
Semantic wikipedia（pdf）
the Semantic Web in one day（pdf）
看完这篇，你就知道为什么只说以前说"其实欧洲人比美国人更急于想实现SW"。
Ontology is Overrated: Categories, Links, and Tags
Semantic MediaWiki/Background: Ontologies and the Semantic Web（需要代理）
w3c的semantic web介绍
rdf的sparql查询语言的描述
关于ontowiki （pdf）-奥地利的大学研究成果

（订阅RSS频道：文儿 feed.sayonly.com 收藏 tag.sayonly.com ）

Click here to view the original Webpage.

Sent using R|mail.