2005-05-29 22:05:14
刚把Group推出去,继续写tag。
上一篇里,已经说到了,现有的tag,只让人知道哪些tag被用得最经常,而没有其他帮助普通用户浏览的信息。对于lite的网站,固然没有什么问题,而且意外地反而是其一部分吸引人的地方。对于heavy的网站,这样的浏览对于用户的体验有负面的影响。
如何处理这些节目标签,如何用一种更有效的方式呈现在用户,尤其是普通用户的面前。
先回过头来,看一下搜索技术。
从最早的Excite,Infoseek等等的早期搜索技术,到google的搜索技术,之间有一个过程。那天夜里想到的,就是忽然想到这个网页搜索技术的过程。
回顾一下google的算法基础。大家今天用google用得很开心,原因很简单:用了一段时间后,一个普通的用户自然会发现,google的搜索结果是最相关的。 就是说,google的机器算法比起早期的搜索技术优越。
Google的算法基础,Page和Brin当年的一篇学术论文细述过了,就是现在大伙儿耳熟能详的page rank的基础。
回顾一下。它的算法的基础是网页被别的网页链接的数量,在这个之上才是关键词等等其它的搜索技术。
1.计算某一个网页被其它网页链接的数目,所谓外部链接数,被链接越多,这个网页的价值越高。
2.计算链接过来的网页上的链接数目。链接越多,单个链接的价值越低
3.累加由此得出的所有链接价值的累加值,乘以阻尼系数,即为网页的价值
有兴趣的,可以看看最早的这个公式:
We assume page A has pages T1…Tn which point to it (i.e.,
are citations). The parameter d is a damping factor which can be set between
0 and 1. We usually set d to 0.85. There are more details about d in the
next section. Also C(A) is defined as the number of links going out of
page A. The PageRank of a page A is given as follows:
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
Note that the PageRanks form a probability distribution over web
pages, so the sum of all web pages’ PageRanks will be one.
简单运算后,得出的结果就是这个网页的价值。 当然,在具体运算过程中,还有一个这些互相链接的网页各自最初的价值如何确定的问题。这个通过一个简单迭代(iterative)的多次运算后,各个值就会稳定在一个让系统平衡的数字上。
Google的创意何在?在学术圈子待过两天的人,立刻就会发现,google的算法基础其实是学术界的人一直习以为常的东西。学术圈子里,在仔细读一篇论文并下个人判断前,所用以粗略判断一篇论文的价值或者重要性的两个基本依据。
1。它最早刊登的学术期刊的地位,2。它被其它学术论文引用的次数。
而在互联网上,学术论文成了网页,而学术论文之间的引用,其实就是网页之间的链接。而学术期刊的地位,则是约等于通过机器算法通过链接算出的每个网页的所谓page rank.
这个发现在google之前曾经有人试图在网页搜索上尝试过。Larry Page当初的那篇论文里,开篇就说到,他的这个算法基础看上去和原有不少人试图用过的所谓计算“引用”来判断网页相关性的算法,是同源的。但是,他的新算法更复杂,微妙些
35. (from the NY Times) Bless me, blog, for I've Sinned