hacker5402 发表于 2018-7-24 22:10:10

写爬虫时遇到个神奇的站点

本帖最后由 hacker5402 于 2018-7-24 22:11 编辑

写的代理IP爬虫,写的差不多了,在收集代理网站,
收集了8个资源站 都是xpath一匹配就行,偏偏这个例外
这个http://www.goubanjia.com/

https://i.loli.net/2018/07/24/5b56fddb0af16.png
一个IP地址 要搞这么多标签搞混吗 就是不让人去爬吧 ..

https://i.loli.net/2018/07/24/5b5706423baed.png

然后写了段程序去爬。出来是出来了,结果发现request.get每次获取url的内容中的端口号都是变化的!
。。。端口号都是变化的
那其他工具get得到的也是,每次端口都是变化的,chrome检查元素的端口是正确的,但response的端口是变化的
然后去查看这个站里的js文件,发现个可疑的

https://i.loli.net/2018/07/24/5b572ab1176db.png

解密后

https://i.loli.net/2018/07/24/5b572ad3c8742.png

大致恢复了下源代码
https://i.loli.net/2018/07/24/5b572b0966deb.png

于是对着一写。。。

https://i.loli.net/2018/07/24/5b572b5bd3ed0.png

水一贴

fei2018 发表于 2018-7-24 22:12:20

牛逼啊大佬,想跟你学技术

广东吴彦祖 发表于 2018-7-24 22:12:24

看不懂 楼下大佬解释下 yc008t

doruison 发表于 2018-7-24 22:14:48

排风完全不会,js忘光了

ddosworks 发表于 2018-7-24 22:15:38

你还没见过生成图片然后取坐标的

hacker5402 发表于 2018-7-24 22:18:35

ddosworks 发表于 2018-7-24 22:15
你还没见过生成图片然后取坐标的

就是觉得这个一个代理IP而已还至于这样吗..

liang0754 发表于 2018-7-24 22:25:57

何必呢少年yc022t
http://www.66ip.cn/mo.php?tqsl=1000

话说你这个 goubanjia == 狗搬家 ?

hacker5402 发表于 2018-7-24 22:41:19

liang0754 发表于 2018-7-24 22:25
何必呢少年




太多不能用了,这个站也在采集的资源站了,都是定时采集验证入库

爱吹海绵的泡泡 发表于 2018-7-25 00:19:16

大佬收徒吗

tims 发表于 2018-7-25 00:25:38

同楼上,收徒吗
页: [1] 2
查看完整版本: 写爬虫时遇到个神奇的站点