全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 2888|回复: 17

有人能搞出這樣子的源碼嗎?

[复制链接]
发表于 2010-11-30 23:29:24 | 显示全部楼层 |阅读模式
  我試著用開源的蜘蛛去抓取頁面 儲存快照 分類儲存頁面

類似  web.archive.org  這樣的網站

我抓到的中文字都是亂碼 誰有這樣子的源碼? 我也來整個互聯網存檔。
发表于 2010-11-30 23:30:52 | 显示全部楼层
太庞大啦
你能搞出来  就伟大了
 楼主| 发表于 2010-11-30 23:32:06 | 显示全部楼层
本地蜘蛛從hao123開始爬 目前吸收到了900多MB的快照頁面了
发表于 2010-11-30 23:33:30 | 显示全部楼层
我想都不敢想能搞這樣的網站
 楼主| 发表于 2010-11-30 23:37:05 | 显示全部楼层
生命在於蛋疼嘛

算了一下 普通的VPS沒有那麼大的硬盤 那些無限虛擬主機能有文件數限制的吧
发表于 2010-11-30 23:38:55 | 显示全部楼层
原帖由 skwinx 于 2010-11-30 23:37 发表
生命在於蛋疼嘛

算了一下 普通的VPS沒有那麼大的硬盤 那些無限虛擬主機能有文件數限制的吧



  哈哈 你還真是蛋疼!。
发表于 2010-11-30 23:45:10 | 显示全部楼层
原帖由 skwinx 于 2010-11-30 23:37 发表
生命在於蛋疼嘛

算了一下 普通的VPS沒有那麼大的硬盤 那些無限虛擬主機能有文件數限制的吧


嗯,你这文件估计很多,虚拟主机肯定不行,上服务器
发表于 2010-11-30 23:47:15 | 显示全部楼层
原帖由 skwinx 于 2010-11-30 23:29 发表
  我試著用開源的蜘蛛去抓取頁面 儲存快照 分類儲存頁面

類似  web.archive.org  這樣的網站

我抓到的中文字都是亂碼 誰有這樣子的源碼? 我也來整個互聯網存檔。 ...



楼主,我也有你这样的想法。
 楼主| 发表于 2010-11-30 23:47:44 | 显示全部楼层
公益事業 讓人搭乘「時光機」回去看看以前的網頁為目的。

上獨服不太合算,研究一下怎麼減少那些文件數
 楼主| 发表于 2010-11-30 23:48:50 | 显示全部楼层
  現有的這個蜘蛛是整個網頁一鍋端 什麽JS CSS 全部下載下來了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-5-5 08:41 , Processed in 0.064336 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表