python3一个简单爬虫程序。。目标站是mm131

eqblog · 发表于 2018-2-1 01:04:58

本帖最后由 eqblog 于 2018-2-1 01:06 编辑

程序只会爬一个分类具体原因是懒的再写获取分类了
新手上路，代码很糙，大神勿喷
效果图：

用了requests库，而且是用python3写的
所以提前安装requests
pip install requests
代码如下：
直链下载：https://eqblog.com/script/base_spider.py
论坛附件：

base_spider.zip (965 Bytes, 下载次数: 462)

import requests
import re
import os
def download_pic(b,dir):
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36Name','Referer':'http://www.mm131.com'}
a=1
while True:
url='http://img1.mm131.me/pic/'+str(b)+'/'+str(a)+'.jpg'
req=requests.get(url=url,headers=headers)
if req.status_code==200:
with open(str(dir)+'/'+str(a)+'.jpg','wb') as f:
f.write(req.content)
a=a+1
else:
break
flag=1
while True:
if flag==1:
get=requests.get('http://www.mm131.com/xinggan/')
b=re.findall(r'<dd><a target="_blank" href="http://www.mm131.com/xinggan/([0-9]*).html"><img src=',get.text)
for a in b:
getpage=requests.get('http://www.mm131.com/xinggan/'+str(a)+'.html')
tittle=re.findall(r'<h5>(.*)</h5>',str(getpage.content,'gb2312',errors='ignore'))
for t in tittle:
if os.path.exists(t)==False:
os.makedirs(t)
print('开始下载：'+t)
download_pic(a,t)
print('下载完成')
else:
print('文件夹已存在，跳过')
flag=flag+1
print('这一页的任务已经完成了')
else:
get=requests.get('http://www.mm131.com/xinggan/list_6_'+str(flag)+'.html')
if get.status_code==200:
b=re.findall(r'<dd><a target="_blank" href="http://www.mm131.com/xinggan/([0-9]*).html"><img src=',get.text)
for a in b:
getpage=requests.get('http://www.mm131.com/xinggan/'+str(a)+'.html')
tittle=re.findall(r'<h5>(.*)</h5>',str(getpage.content,'gb2312',errors='ignore'))
for t in tittle:
if os.path.exists(t)==False:
os.makedirs(t)
print('开始下载：'+t)
download_pic(a,t)
print('下载完成')
else:
print('文件夹已存在，跳过')
flag=flag+1
print('这一页的任务已经完成了')
else:
break

复制代码

redalfa · 发表于 2018-2-1 01:43:38

支持爬虫程序员的第一步...

ecosway598 · 发表于 2018-2-1 02:21:17

提示: 作者被禁止或删除内容自动屏蔽

bbqbbqtt · 发表于 2018-2-1 02:35:32

火车头一开。。呜呜叫

eqblog · 发表于 2018-2-1 03:03:26

ecosway598 发表于 2018-2-1 02:21
爬图片有啥用啊。。？

爬点图片自己看呗。。。

cnly1987 · 发表于 2018-2-1 04:39:45

支持！

yjsx86 · 发表于 2018-2-1 06:16:14

大佬666的

秋风下的落叶 · 发表于 2018-2-1 08:21:52

营养快跟不上了。

左手写爱 · 发表于 2018-2-1 08:29:01

楼主把爬好的图片百度网盘分享下吧

飝闛 · 发表于 2018-2-1 08:31:11

支持，支持~

		自动登录	找回密码
密码			注册

ecosway598 ecosway598 当前离线积分 9289	发表于 2018-2-1 02:21:17 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
ecosway598 ecosway598 当前离线积分 9289
	回复支持反对举报

python3一个简单爬虫程序。。目标站是mm131

浏览过的版块