2005-06-08 20:24:22
下午就把哪吒的内部测试版扔出去给大伙儿试验试验了。稍有点时间,再继续写我的哪吒算法。很简单的一个描述。明白的,自然就明白了。
接上一篇:
互联网上的用户 = 土豆的用户
关键词 = 标签
网页 = 土豆上节目
网页的链接 = 用户花费的资源成本 = 土豆上可被机器计算的数值 (?)
网页群体的关系 = 土豆上的?
网页群体的关系比较简单:
标签彼此之间的关系,没有什么意义。标签和用户之间,可以通过节目文件,建立起一个中间过渡的多对多关系。
更重要的问题:在土豆网上,一个普通用户花费的成本,是什么?
在流量主导几乎所有人讨论方向的互联网世界,估计所有人脑子里闪过的都是:浏览量。
表面上看,这似乎是最公正,最直接,最合理的计算方法。但是,就象很多的表象一样,表象只是表象。
再回顾一下goolge的评估网页的方法,对比早期的网页评估方法。早期的,也是很直接地就评估网页或者网站的流量。似乎是最合理的评估方法。流量最高的,当然是最有价值的。Google之后,我们知道,这其实并不是最合理的。流量太容易被操纵,有太多的流量都是垃圾流量,不带有任何意义的流量。
谁都知道,mindless mob的力量非常大。但是,mob所选定的方向,长期而言,不具太大的价值。要不怎么叫mindless mob,怎么叫被操纵的mob。
回到前面的结论:只有一个用户花费了可衡量的资源,他的投票才有意义。
在土豆上,用户有意义,需要耗费的资源,就是他的带宽。我们计算的,因此是:
1.一个节目文件被多少个用户下载了。
2.每个用户每天下载了多少个节目。
这个分析的基础,是因为土豆的节目文件都比较大,动辄数十兆。一个用户,如果他在在线预览了一个节目后,居然还愿意花时间和带宽,下载一个文件到自己的硬盘上,这一票,就是远比浏览重要得多的一票。
同时,如果一个用户每天只下载一个节目,相对于一个每天下载几十个节目的用户,那他的所赋予这个节目的价值就比第二个人更高一些。
这样,我们的算法就可以用一个简单的公式(好奇的,这个公式和前面的一和二就是土豆申请的全球专利。还有后面的土豆哪咤的实际运用):
The method of ranking any individual file with multiple accessing devices is thus:
VR(A) = (VD(d1)/C(d1) + … + VD(dn)/C(dn))
Where:
VR is the value of the file.
VD is the value that unique accessing device assigns to the file
C is the number of assignments each accessing device conducts over a set period of time
这是表面上非常简单的算法。
同时,非常重要的,土豆是一个内部可以完全控制的网络,不象google,需要在一个浩瀚的互联网大洋中寻的秩序。土豆现在其实还是个小湖泊。但是,照着目前的增长速度,很快,我们的节目和用户,就会有一个滔滔东海的感觉了。接下来,衡量的方法,很容易可以调整。
哪吒是为了这个未来的东海做准备。
今天下午就开始测我们的哪吒。目前还是内测,拿到内测口令的,大伙儿多提意见。
http://www.toodou.com/tag_alpha.php
[@more@]