有精通爬虫和采集的吗?
我把百度经验的链接抓取到有近亿条记录,用服务器的话硬盘估计不够,准备用家用宽带100m本地电脑抓取,10线并发,平均2秒10篇,算了一下,采完要好几个月,还不算采集期间增加的,在最低成本的条件下,有何良策? sora 发表于 2018-5-16 09:54也采集了百度经验, 不过尴尬的是, 百度不怎么收录, 可能.cc域名的原因, 又或者百度经验的标题相似度太高. ...
采集港台的娱乐新闻换成简体中文收录好 我也想问问.....我才怕去了 几十万数据觉得到上亿也有会存储不够 传奇1900 发表于 2018-5-16 09:27
第一眼看到的是
精。。。。。。。。。。虫。。。。。。。。。。。
同
也采集了百度经验, 不过尴尬的是, 百度不怎么收录, 可能.cc域名的原因, 又或者百度经验的标题相似度太高. 百度经验百度的排重很厉害吧。
除非你是拼接文章。 :lol真是个大水笔 yc002t 做分布式吧
页:
[1]
2