全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
12
返回列表 发新帖
楼主: skwinx

有人能搞出這樣子的源碼嗎?

[复制链接]
发表于 2010-11-30 23:49:14 | 显示全部楼层
做這個玩意
沒有點美元或人民幣是不可能的撒
发表于 2010-12-1 00:15:07 | 显示全部楼层
爬这么多有啥用么。。我一直就很不解。。垃圾站的意义是什么?除了赚点钱。。
你搞几个机器在你本地爬,一周能爬好几十T的。
发表于 2010-12-1 01:04:21 | 显示全部楼层
对于中文网页,要正确的读出 encode 的方式

可以从网页头部,HTTP header 读出,然后 decode 一下
发表于 2010-12-1 01:10:26 | 显示全部楼层
另外,这样做最大的问题在于截图如何经济有效的存贮和调用

毕竟是文件,不能使用现成的一些 Map/Reduce 或者 NoSQL 之类的数据模型
发表于 2010-12-1 07:01:04 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2010-12-1 07:05:22 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2010-12-1 07:15:59 | 显示全部楼层
nutch 开源的
发表于 2010-12-1 08:53:02 | 显示全部楼层
一个很不错的想法,但你可能得为些付出一辈子的努力。
因为你的想法……,可能不是一个人的财力、精力……能完成的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-5-5 08:47 , Processed in 0.065945 second(s), 5 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表