12:36 AM Tuesday, July 11, 2006

Wolf Pan:关于信息自由化量度的思考

这是Wolf Pan发给我的电子邮件,探讨的是建立信息自由化量化指标的可能性。希望有更多的同好者参与到这个讨论中。现征得作者同意,原文发布在这里。

作者:Wolf Pan

授权:Creative Commons

信息自由化能否像每年《福布斯》对城市竞争力评价那样量化?那种类似于评价市场化程度的指标,在信息自由化程度的评价中能否被运用?如果做一个基于类似于PageRank 的量化指标是否可行或者是否有意义?

初探信息自由化的量度

Google声称它的使命是"整合全球范围的信息,使人人皆可访问并从中受益",我认为是否"受益"是以信息自由化的程度来判断,也就是说:一个处于信息不对称弱势中的人,可以通过获取信息而使自身所处的环境得到改善或者做出恰当的抉择。但是要判断信息自由化的程度并不是一件容易的事情,我们虽然可以定性简单地认为:在一个社会里,信息对公众越公开,公众越容易获取那么这个社会信息自由化的程度就越高。不过当我们衡量各个不同环境之间的信息自由化程度时,我们如何作说明?比如香港与平壤之间的差异是显而易见的,但是香港与纽约之间就很难说了。

每年像《福布斯》这样的杂志都会对不同城市之间的竞争力作评价,其中一个非常重要指标就是市场化的程度。我们知道市场化程度可以由商品/货币的流通、行政是否干预及垄断的规模等等来评价,然后根据一个加权就可以得出一个相对客观的指标。因此我希望能够根据类似的一套计算方法去评价信息自由化的程度。但是必须要指出:加权的存在就说明了这个指标存在很多的隐性的标准。比如政府干预的行为,除了公开出台的政策外还有会存在一些"不成文法",你无办法做一个定量的判断。

对于信息自由化的量度,理想的办法是基于一个类似于Google Page Rank算法标准,排除隐性因素,而建立在一个可以公开透明平台之上(你可以根据同样的评价标准得出同样的结果)。令人兴奋的是,无孔不入的搜索技术繁荣使得这个平台成为了可能,后面工作的第一步就是建立在对不同搜索技术的应用之上。

在进一步深入之前,我们要明确这个概念: 信息自由化的程度不是以人们是否受益来判断,而是以人们能否在最大的限度上获取所需的信息来衡量。因为是否受益存在一定的主观因素,同时我认为自由绝不是引导人们往一个被认定有利的方向前进,而是人们具有从不同的环境中获得自主的学习认知的能力。信息充分自由化是人们受益的充分条件,而反过来人们受益只是信息自由化的一个必要条件。(具有讽刺意味的是:在信息被闭塞的环境中,"额外"的信息会被认为是有害的或者是"导致恐慌混乱的原因",正所谓"因为无知所以要愚昧"。)

信息得以自由传播很大程度上依赖于技术的进步,从甲骨文、羊皮书、造纸、印刷到数字经历了一个漫长的时代,在一个信息极为分散或被垄断的时代谈论自由化是没有意义的,比如亚历山大的图书馆不是对每一个人都开放。即使是10年前一个普通的中国人想查阅一些学术资料也不是很容易,因为生活在小城市里,我对此十分之有体会:如果要查资料或者买参考书必须坐2个小时的汽车或者快船到广州。因此信息自由化是以信息集中及开放为基础的。

何谓集中?所谓的集中并非指亚历山大图书馆式的收藏或聚集,集中是指散列的信息能够有效地被排列并且可以方便地被提取,信息技术的发展搜索引擎的出现使得这个概念变成了现实。我们所需的信息并不一定被固定保存在某个服务器(相当于某个图书馆或者博物馆),而是分散在全世界各地,当你需要的时候只要提供可能的关键字即可。

何谓开放?即使是现代的大学图书馆,都不一定是开放的,你进去可能要申请或者排期,就算你是教职人员如果要去别的大学去查找资料,常常也可能会吃"闭门羹"。往往得到的理由很简单:资源不足!不过有时候出于保护的目的,一些珍贵的资料亦可能被封藏起来,这个是可以理解的。同时,开放亦隐含了一层意思:每一个人都可以通过最简单的途径/手段获取所需的信息。比如国家图书馆对全民开放,但是这对生活在南方的人来说意义不大。悲观地说,到目前为止,能够做到信息开放原则的,我们只能指望各种互联网的搜索引擎。

当我们明白了对上面这些概念有了基本的认识时,就可以着手我们这个"伟大的工程"了。我前面提到我们工作的第一步是基于搜索技术的,原因是各种搜索引擎为我们提供了一个开放而且成本低廉的平台,更重要的是 使信息量化的搜索技术可以转变成为量化的信息自由化程度的指标。

关于评价模式

我初步的考虑到的问题如下:

〈一〉基于互联网的评价方式

1、这个衡量的模式是基于互联网的,因此互联网的普及率应该是作为一个基本的线性因子,互联网的普及率越高系数越大(正比)。例如在非洲互联网接入的成本十分之高,可以上网的人屈指可数,虽然不存在GFW这些限制,但是我们并不能认为其信息自由化的程度高;

2、研究对象是信息,而承载这些信息的实体是搜索引擎(当然包括维基,但是维基的结果已经存在于搜索引擎里面),因此对于搜索引擎有一个选择的问题。(1)国际性,我们单说这个国家或地区的信息自由化程度如何高是没有意义的,但是我们觉得美国高,是拿了它和中国对比(模型会存在一个基准参考面),最简单的例子:Google在美国搜索到的结果比中国多。再比如我们用Baidu搜索到某些信息比Google丰富,因此说中国的信息自由化程度比美国高,是荒谬的。因此我们必须选择具有国际性的搜索引擎(存在地区和语言差异,他们声称是一个国际性的公司就显示了不同地区信息自由化的程度),比如Google、MSN、Yahoo 等等。(2)同一个关键基于同一个搜索引擎的地区分析,然后将不同的比值进行换算综合,获得"重要信息"(见下述)结果较多,同时市场占有率高的搜索引擎在评价模型中将起更大影响力。(3)必须是算法原则,人工排序因素超过重要性的均值的结果将会被排除。

〈二〉信息点与网格的概念(模型的核心)

1、"点"与"点"之间的连通性。首先"点"(point)的概念是我们承认了信息具有相关性(各种知识都是有联系的),比如"衣服"这个关键词,一方面我们可以立即想到"材料""款色"和"价格"相关词汇,另一方面又可以引申出"贸易""产地""税率"等等。这些关键词(相关词汇)就是"点",不同的"点"可以连接起来能组成一个多维连续的网格(Grid),连续是指从不同的"点"出发,可以经过不同的路线回到自身,如果关于"点"的信息越多,所覆盖的面越大,从不同的路线回归的次数就越多,所能获取的信息量就越大。

比如一个从北京到广州的人,他出发的时候坐"京九线"的列车,途径了北京、麻城、南昌、广州等城市,回程的时候坐"京广线"的车次,途径了广州、郴州、武昌、郑州、保定、北京等城市,那么他所能观赏到的沿途风景,是不是肯定会比来回只选择京九或者京广线的人要多?你选不选择分别坐着两趟车是你的事情,但是我们说现在的交通发达了,是因为选择多了,有轮船、火车、飞机甚至自驾车、徒步旅行等等各种方式,因此自由化就意味着你应该有选择的"余地",也就是说P2P的连通性好。

2、"点"与"点"之间的断路。如果两个点之间不能实现连续回归,那么这种情况就是断路。理论上Grid上的Point应该始终连续的,因为即使假如链表上的两个节点被断开了,我们仍然可以从两个节点出发寻找相关的信息点,这些信息点会产生新的连接路线。但是在现实中却存在一种单向并且被边缘化的结点,这个十分有趣:比如我们都有这些经历:我们提供了一个信息点/关键词给Google的服务器,当Google反馈搜索结果的时候浏览器却显示"连接被重置",那么这个关键词(信息点)我们就可以认为是单向结点,我们可以检索,但是却得不到任何信息,这就是现实中的"断路"/"断点效应"(因为搜索引擎"无所不包",所以信息点可以被认为是有无限个,这就是为什么选择搜索引擎作为研究对象的原因之一)。

3、"点"的覆盖率。既然我们定义了连通性和断路的概念,那么Grid应该存在一个覆盖率的问题,因为被边缘化的点限制了Grid的"体积",但是计算这个"体积"的大小是没有任何的意义!你可以确定世界上有多少种具体的知识吗?但是我们却知道体积与密度成反比,而与重量成正比,如果我们可以找到一个作参照的基准物体,就可以比较体积的大小了。密度可以理解为信息点的辐射密度(发散性),而重量可以理解为信息点的重要性(想一下搜索引擎的分词技术)。但是重要性原则存在下面几个问题:

(1)同义转换,比如"汽油",美式英语是"Gas",英式英语"Oil",荷兰语"Dutch"假如因为现在油价暴涨,汽油成了一个十分短缺的物品,人们都上搜索引擎去找加油的信息,那么汽油就成了一个热门关键词,但是我们有什么理由去认为中国人找的"汽油"、美国人找的"Gas"应国人找的"Oil"荷兰人找的"Dutch"就是同一个词呢,而不认为"Gas"是指"天然气","Dutch"是"神秘物"呢?(这一点可以考虑利用Google的翻译算法)

(2)我们关心的信息点有不同,比如Pizza在意大利语的排名中是个再热门不过的词汇,但是在中文就不是了,在意大利人们可以获取比萨的的信息比中国多,就可以说意大利比中国信息自由化的程度高,显然说不通(但用"民主"/"démocratie"这个信息点来比较呢?),因此选择必须有共性,如果一个绝对词汇(利用算法标准所确定在每一种语言中均表示同一个意思的词/翻译)获得很多人的关注,我们就认为它是相对重要的。

(3)信息点的有效性,覆盖率不能用信息量来代替;

因此对作为建立我们这个量化模型的参考信息点,必须具有一定的共性和普遍性。

4、P2P连通性越好,断点越少,信息的覆盖率越大则人们获取信息的能力越高,结合第一个模式,则可以获得信息自由化的具体量度。


Sent using R|mail.

通告:本站点(http://gwebread.blogspot.com)的内容系由Feeds订阅自动生成,本站不拥有任何权利,建议您通过点击文末的链接浏览原文,以获得更好的阅读体验。鉴于此处仅供个人阅读使用,恕不发送引用通告。若您拥有被订阅feeds中某些内容的权利,且不想此内容在本站发布,请留言告知。

Trackback URL: http://www.haloscan.com/tb/geneboy/115254940811956114/