38. 哪吒之三：基础算法

下午就把哪吒的内部测试版扔出去给大伙儿试验试验了。稍有点时间，再继续写我的哪吒算法。很简单的一个描述。明白的，自然就明白了。

接上一篇：

互联网上的用户　＝　土豆的用户
关键词　　　　　＝　标签
网页　　＝　土豆上节目
网页的链接　　　＝　用户花费的资源成本　＝　土豆上可被机器计算的数值　（？）
网页群体的关系　＝　土豆上的？

网页群体的关系比较简单：

标签彼此之间的关系，没有什么意义。标签和用户之间，可以通过节目文件，建立起一个中间过渡的多对多关系。

更重要的问题：在土豆网上，一个普通用户花费的成本，是什么？

在流量主导几乎所有人讨论方向的互联网世界，估计所有人脑子里闪过的都是：浏览量。

表面上看，这似乎是最公正，最直接，最合理的计算方法。但是，就象很多的表象一样，表象只是表象。

再回顾一下goolge的评估网页的方法，对比早期的网页评估方法。早期的，也是很直接地就评估网页或者网站的流量。似乎是最合理的评估方法。流量最高的，当然是最有价值的。Google之后，我们知道，这其实并不是最合理的。流量太容易被操纵，有太多的流量都是垃圾流量，不带有任何意义的流量。

谁都知道，mindless mob的力量非常大。但是，mob所选定的方向，长期而言，不具太大的价值。要不怎么叫mindless mob，怎么叫被操纵的mob。

回到前面的结论：只有一个用户花费了可衡量的资源，他的投票才有意义。

在土豆上，用户有意义，需要耗费的资源，就是他的带宽。我们计算的，因此是：
１．一个节目文件被多少个用户下载了。
２．每个用户每天下载了多少个节目。

这个分析的基础，是因为土豆的节目文件都比较大，动辄数十兆。一个用户，如果他在在线预览了一个节目后，居然还愿意花时间和带宽，下载一个文件到自己的硬盘上，这一票，就是远比浏览重要得多的一票。

同时，如果一个用户每天只下载一个节目，相对于一个每天下载几十个节目的用户，那他的所赋予这个节目的价值就比第二个人更高一些。

这样，我们的算法就可以用一个简单的公式（好奇的，这个公式和前面的一和二就是土豆申请的全球专利。还有后面的土豆哪咤的实际运用）：

The method of ranking any individual file with multiple accessing devices is thus:

VR(A) = (VD(d1)/C(d1) + … + VD(dn)/C(dn))

Where:
VR is the value of the file.
VD is the value that unique accessing device assigns to the file
C is the number of assignments each accessing device conducts over a set period of time

这是表面上非常简单的算法。

同时，非常重要的，土豆是一个内部可以完全控制的网络，不象google，需要在一个浩瀚的互联网大洋中寻的秩序。土豆现在其实还是个小湖泊。但是，照着目前的增长速度，很快，我们的节目和用户，就会有一个滔滔东海的感觉了。接下来，衡量的方法，很容易可以调整。

哪吒是为了这个未来的东海做准备。

今天下午就开始测我们的哪吒。目前还是内测，拿到内测口令的，大伙儿多提意见。

http://www.toodou.com/tag_alpha.php

[@more@]