34. 土豆哪吒计划之二－　从搜索到人际网络的标签组织

刚把Group推出去，继续写tag。

上一篇里，已经说到了，现有的tag，只让人知道哪些tag被用得最经常，而没有其他帮助普通用户浏览的信息。对于lite的网站，固然没有什么问题，而且意外地反而是其一部分吸引人的地方。对于heavy的网站，这样的浏览对于用户的体验有负面的影响。

如何处理这些节目标签，如何用一种更有效的方式呈现在用户，尤其是普通用户的面前。

先回过头来，看一下搜索技术。

Keyword的搜索和Google的链接搜索

从最早的Excite，Infoseek等等的早期搜索技术，到google的搜索技术，之间有一个过程。那天夜里想到的，就是忽然想到这个网页搜索技术的过程。

回顾一下google的算法基础。大家今天用google用得很开心，原因很简单：用了一段时间后，一个普通的用户自然会发现，google的搜索结果是最相关的。就是说，google的机器算法比起早期的搜索技术优越。

Google的算法基础，Page和Brin当年的一篇学术论文细述过了，就是现在大伙儿耳熟能详的page rank的基础。

回顾一下。它的算法的基础是网页被别的网页链接的数量，在这个之上才是关键词等等其它的搜索技术。
１．计算某一个网页被其它网页链接的数目，所谓外部链接数，被链接越多，这个网页的价值越高。
２．计算链接过来的网页上的链接数目。链接越多，单个链接的价值越低
３．累加由此得出的所有链接价值的累加值，乘以阻尼系数，即为网页的价值

有兴趣的，可以看看最早的这个公式：

We assume page A has pages T1…Tn which point to it (i.e.,
are citations). The parameter d is a damping factor which can be set between
0 and 1. We usually set d to 0.85. There are more details about d in the
next section. Also C(A) is defined as the number of links going out of
page A. The PageRank of a page A is given as follows:

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

Note that the PageRanks form a probability distribution over web
pages, so the sum of all web pages’ PageRanks will be one.

简单运算后，得出的结果就是这个网页的价值。当然，在具体运算过程中，还有一个这些互相链接的网页各自最初的价值如何确定的问题。这个通过一个简单迭代(iterative)的多次运算后，各个值就会稳定在一个让系统平衡的数字上。

Google的创意何在？在学术圈子待过两天的人，立刻就会发现，google的算法基础其实是学术界的人一直习以为常的东西。学术圈子里，在仔细读一篇论文并下个人判断前，所用以粗略判断一篇论文的价值或者重要性的两个基本依据。

１。它最早刊登的学术期刊的地位，２。它被其它学术论文引用的次数。

而在互联网上，学术论文成了网页，而学术论文之间的引用，其实就是网页之间的链接。而学术期刊的地位，则是约等于通过机器算法通过链接算出的每个网页的所谓page rank.

这个发现在google之前曾经有人试图在网页搜索上尝试过。Larry Page当初的那篇论文里，开篇就说到，他的这个算法基础看上去和原有不少人试图用过的所谓计算“引用”来判断网页相关性的算法，是同源的。但是，他的新算法更复杂，微妙些

34. 土豆哪吒计划之二－ 从搜索到人际网络的标签组织

34. 土豆哪吒计划之二－　从搜索到人际网络的标签组织