楼主采集的啥呀?什么站?
ass。。xxx content ----- 原帖由 糕手 于 2011-7-2 02:40 发表 http://hostloc.wiki/images/common/back.gif
尼玛的 直接开火车就OK了何必去写神马正则 搞死人......
yc022t yc022t 火车就更加麻烦了,比curl还要麻烦,而且远没有curl灵活 我用帝国就很爽,没那么复杂,或者火车头。 写好采集规则就万事无忧了…… 被k 时 死的 更惨 yc022t yc022t 哪有那么容易被k
google现在判断是否重复内容使用的听说是simhash算法,采集的时候不要傻傻地完全copy过来就好了,要多篇文章合并成一篇,这样就很可能不会被判断为镜像网页,被k几率很小
页:
1
[2]