站群的基石

By | 2019年4月7日

站群的基石是什么?

有人认为算法很重要,不然Google怎么收录啊?

有人认为服务器很重要,不然怎么大量抓取啊?

有人认为程序很重要,不然怎么快速访问啊?

有人认为外链很重要,不然怎么有权重啊?

……

可是如果陷入到这些细节问题中,会缺乏大局观,就会有下面这种问题和这种回答:

那站群的基石到底是什么?

是成本和收益。

比如上面那个问题,有人建议一天发200篇。那不妨算下时间成本: 假设有50万条数据,一天发200,需要2500天=6.8年发完。50万条数据能有多少流量,各个行业不一样。但活了7年的采集站,比大熊猫还珍贵。不出一年就会陷入到两个尴尬之一:网站被Google清空了但文章还没发完;或者要到论坛发帖问:网站没有流量该不该续费。

再比如BHW经常有人问,是用old domain还是new domain?老域名贵,但效果好,新域名便宜,但效果一般。那就算下金钱成本:假设dropped domain单价$150, new domain单价$5, 同样数据和模型的情况下,老域名能带来5000 ip/日, 新域名能带来500 ip/日。还需要在论坛里发帖子问哪个划算吗?

再比如有人问,是用独服还是VPS,是用ssd还是hdd,带宽用多大,线路是走CN2还是普通?那就先算下时间成本。比如在200w条数据,用sql而不用sphnix这种搜索引擎的情况下:hdd的平均网页访问速度约1~3秒,甚至会到7~9秒。而ssd的平均网页访问速度在0.1秒左右。再考虑下金钱成本:通常单块SSD也就250G,算可用200G,如果是单站占用1G的情况下,一块SSD硬盘能承接100个站。还用继续算下去吗?也许还会有人反驳,做了html静态化,怎么可能单站只占用1G的空间啊,起码20G起步啊。那你为什么要做静态化,不就是为了访问速度吗?

还会有人问,没有数据怎么算啊?

重要的一点:研究SEO,少看帖子多测试。

发表评论

电子邮件地址不会被公开。 必填项已用*标注