bluevm 发表于 2018-5-16 09:24:11

有精通爬虫和采集的吗?

我把百度经验的链接抓取到有近亿条记录,用服务器的话硬盘估计不够,准备用家用宽带100m本地电脑抓取,10线并发,平均2秒10篇,算了一下,采完要好几个月,还不算采集期间增加的,在最低成本的条件下,有何良策?

左手写爱 发表于 2018-5-16 15:54:22

sora 发表于 2018-5-16 09:54
也采集了百度经验, 不过尴尬的是, 百度不怎么收录, 可能.cc域名的原因, 又或者百度经验的标题相似度太高. ...

采集港台的娱乐新闻换成简体中文收录好

yhqdq 发表于 2018-5-16 09:27:01

我也想问问.....我才怕去了 几十万数据觉得到上亿也有会存储不够

传奇1900 发表于 2018-5-16 09:27:17

doruison 发表于 2018-5-16 09:27:52

传奇1900 发表于 2018-5-16 09:27
第一眼看到的是
精。。。。。。。。。。虫。。。。。。。。。。。


ǿ 发表于 2018-5-16 09:33:53

sora 发表于 2018-5-16 09:54:25

也采集了百度经验, 不过尴尬的是, 百度不怎么收录, 可能.cc域名的原因, 又或者百度经验的标题相似度太高.

thymol 发表于 2018-5-16 09:55:01

cw723 发表于 2018-5-16 09:58:08

百度经验百度的排重很厉害吧。

除非你是拼接文章。

王百万 发表于 2018-5-16 10:02:55

:lol真是个大水笔

king51 发表于 2018-5-16 10:06:57

yc002t 做分布式吧
页: [1] 2
查看完整版本: 有精通爬虫和采集的吗?