38. 哪吒之三:基础算法

2005-06-08 20:24:22

下午就把哪吒的内部测试版扔出去给大伙儿试验试验了。稍有点时间,再继续写我的哪吒算法。很简单的一个描述。明白的,自然就明白了。

接上一篇:

互联网上的用户 = 土豆的用户
关键词     = 标签
网页    = 土豆上节目
网页的链接   = 用户花费的资源成本 = 土豆上可被机器计算的数值 (?)
网页群体的关系 = 土豆上的?

网页群体的关系比较简单:

标签彼此之间的关系,没有什么意义。标签和用户之间,可以通过节目文件,建立起一个中间过渡的多对多关系。

更重要的问题:在土豆网上,一个普通用户花费的成本,是什么?

在流量主导几乎所有人讨论方向的互联网世界,估计所有人脑子里闪过的都是:浏览量。

表面上看,这似乎是最公正,最直接,最合理的计算方法。但是,就象很多的表象一样,表象只是表象。

再回顾一下goolge的评估网页的方法,对比早期的网页评估方法。早期的,也是很直接地就评估网页或者网站的流量。似乎是最合理的评估方法。流量最高的,当然是最有价值的。Google之后,我们知道,这其实并不是最合理的。流量太容易被操纵,有太多的流量都是垃圾流量,不带有任何意义的流量。

谁都知道,mindless mob的力量非常大。但是,mob所选定的方向,长期而言,不具太大的价值。要不怎么叫mindless mob,怎么叫被操纵的mob。

回到前面的结论:只有一个用户花费了可衡量的资源,他的投票才有意义。

在土豆上,用户有意义,需要耗费的资源,就是他的带宽。我们计算的,因此是:
1.一个节目文件被多少个用户下载了。
2.每个用户每天下载了多少个节目。

这个分析的基础,是因为土豆的节目文件都比较大,动辄数十兆。一个用户,如果他在在线预览了一个节目后,居然还愿意花时间和带宽,下载一个文件到自己的硬盘上,这一票,就是远比浏览重要得多的一票。

同时,如果一个用户每天只下载一个节目,相对于一个每天下载几十个节目的用户,那他的所赋予这个节目的价值就比第二个人更高一些。

这样,我们的算法就可以用一个简单的公式(好奇的,这个公式和前面的一和二就是土豆申请的全球专利。还有后面的土豆哪咤的实际运用):

The method of ranking any individual file with multiple accessing devices is thus:

VR(A) = (VD(d1)/C(d1) + … + VD(dn)/C(dn))

Where:
VR is the value of the file.
VD is the value that unique accessing device assigns to the file
C is the number of assignments each accessing device conducts over a set period of time

这是表面上非常简单的算法。

同时,非常重要的,土豆是一个内部可以完全控制的网络,不象google,需要在一个浩瀚的互联网大洋中寻的秩序。土豆现在其实还是个小湖泊。但是,照着目前的增长速度,很快,我们的节目和用户,就会有一个滔滔东海的感觉了。接下来,衡量的方法,很容易可以调整。

哪吒是为了这个未来的东海做准备。

今天下午就开始测我们的哪吒。目前还是内测,拿到内测口令的,大伙儿多提意见。

http://www.toodou.com/tag_alpha.php

[@more@]

37. 和播客宝典hopesome的一次skypecast

39. the NY times; Which camera does this Pro use?