【python】放出杰奇后台全自动多线程采集，同步目标站最...

jsenet · 发表于 2015-9-12 10:46:51

本帖最后由 jsenet 于 2015-9-13 13:02 编辑

以前就弄好了，忘了放出来，懂的拿去用吧。
多线程采集，字数对比，目标站更新一版30秒内同步。

转载注明作者：vpskk.com(还未上线，嘿嘿)

#!coding=UTF-8
import urllib
import urllib2
import commands
import time
import threading
import os
import re
import sys
thlen = 10
#定义同时采集的线程数
books = []
#定义需要采集的书库
tsk = []
#定义采集线程数组
bookdict = {}
#定义已采集图书字典，key为目标站书号,value为字数
domain = 'yoursite.domain.com'
adminuser = 'admin'
adminpass = '******'
siteid = '23'
# notaddnew = '0'
frompage = 'http://all.17k.com/lib/book/2_0_0_0_0_0_2_0_1.html'
def addbooklist():
while 1:
time.sleep(30)
print '[' + time.strftime('%H:%M:%S') + '] 采集更新列表线程启动。'
start = time.time()
try:
response = urllib2.urlopen(frompage, timeout = 12)
content = response.read()
except:
continue
response.close()
elapsed = (time.time() - start)
bookattr = re.findall(r'<a class="jt" rel="/tip\.xhtml\?book\.id=([0-9]+)\&difference[^>]+>([^<]+)</a>*[\s\S]*?<td class="td5">([0-9]+)</td>',content,re.M)
print '[' + time.strftime('%H:%M:%S') + '] 采集更新列表结束，用时：' + str(elapsed) + '秒'
for ii in range(len(bookattr)):
newbookid = bookattr[ii][0]
newbookname = bookattr[ii][1]
newbooksize = bookattr[ii][2]
inlist = False
for tt in range(len(books)):
if (books[tt][0]==newbookid):
inlist = True
if not inlist:
#书号不在待采集数组里
if (newbookid in bookdict.keys()):
#书号在已采集过的字典里(需要根据字数来判断是否有更新)
if (int(newbooksize)>int(bookdict[newbookid])):
#采集到书籍字数大于已采集字典里的字数（添加到待采集列表）
books.append([newbookid,newbookname,newbooksize])
print '书号:' + newbookid + '有更新，旧字数:'+ bookdict[newbookid] + ' 新字数:'+ newbooksize + ' 添加到待采集列表。'
else:
#书号不在已采集过的字典里（添加到待采集列表）
books.append([newbookid,newbookname,newbooksize])
print '书号:' + newbookid + '最近未采集，添加到待采集列表。'
print '[' + time.strftime('%H:%M:%S') + '] 采集更新列表线程完成，线程休眠。'
def caiji(bookid,bookname,booksize):
print '正在采集书号[' + bookid + '] 书名:' + bookname
url = 'http://'+ domain + '/modules/article/admin/batchcollect.php?action=bcollect&siteid=' + siteid + '&batchids=' + bookid + '&jieqi_username=' + adminuser + '&jieqi_userpassword=' + adminpass
start = time.time()
page = urllib2.urlopen(url,timeout=3600)
data = page.read(8192)
while data:
data = page.read(8192)
page.close()
elapsed = (time.time() - start)
time.sleep(5) #采集完等5秒生成全书
print '书号[' + bookid + '] 书名:' + bookname + '字数:' + booksize + 'k 采集完成！用时：' + str(elapsed) + '秒'
print '书号[' + bookid + '] 书名:' + bookname + '字数:' + booksize + 'k 添加到最近采集书目字典。'
# 从网页获取要采集的文章ID和文章名字（首次）
start = time.time()
response = urllib2.urlopen(frompage, timeout = 12)
content = response.read()
response.close()
elapsed = (time.time() - start)
getattr = re.findall(r'<a class="jt" rel="/tip\.xhtml\?book\.id=([0-9]+)\&difference[^>]+>([^<]+)</a>*[\s\S]*?<td class="td5">([0-9]+)</td>',content,re.M)
#getsize = re.findall(r'<td class="td5">([0-9]+)</td>',content,re.M)
print '首次获取要采集的文章共' + str(len(getattr)) +'篇，用时：' + str(elapsed) + '秒'
books = books + getattr
if (len(books)<3):
print('获取列表页失败,退出！')
exit()
#启动书籍列表采集线程
thaddbooklist = threading.Thread(target=addbooklist,name='taddbooklist')
thaddbooklist.start()
for x in range(thlen):
bookid = books[0][0]
bookname = books[0][1]
booksize = books[0][2]
tname = 't' + str(x)
th = threading.Thread(target=caiji,name=tname,args=(bookid,bookname,booksize))
th.start()
del books[0]
bookdict[bookid] = booksize
tsk.append(th)
#检测空闲线程，当线程闲置时，若待采集列表不为空时，启用该线程进行采集
while 1:
time.sleep(5)
for i in range(len(tsk)):
if not tsk[i].is_alive():
print tsk[i].name + '线程空闲'
if len(books) > 0:
bookid = books[0][0]
bookname = books[0][1]
booksize = books[0][2]
th = threading.Thread(target=caiji,name=tsk[i].name,args=(bookid,bookname,booksize))
th.start()
del books[0]
bookdict[bookid] = booksize
tsk[i] = th

复制代码

效果演示：同步17k,当然，我只采集VIP小说。后台挂着，只要17k有vip小说更新，则自动同步。

caiji.png (124.12 KB, 下载次数: 11)

分享吧 · 发表于 2015-9-12 10:47:52

帮顶下，虽然什么都看不懂，

adochina · 发表于 2015-9-12 10:50:33

很需要，但是要研究下怎么用

jsenet · 发表于 2015-9-12 10:51:53

配合后台采集规则。当然这个py里的那个获取源站列表的正则要自己改下。
其他全自动了。

lqtest · 发表于 2015-9-12 10:52:33

谢谢楼主啊

jsenet · 发表于 2015-9-12 10:54:39

比crontab后台采集好处很多：
1.crontab你不能确定采集一次要多长时间，会重复采集造成章节出错。
2.多线程，速度远快于用crontab
3.字数比对，不用浪费时间去检测。
4.因为带了比对和多线程，采集间隔我设置是30秒检测，这样源站一旦更新，30秒内就能同步。

其他自己体会吧，这个是我自己小说站写的，放弃关关

天也就这么大 · 发表于 2015-9-12 10:55:40

提示: 作者被禁止或删除内容自动屏蔽

jsenet · 发表于 2015-9-12 10:58:59

天也就这么大发表于 2015-9-12 10:55
还是看不懂，用关关不是好很多吗

实测，采集效率比关关高的多。

当然还有个很重要的原因，用这个，则不需要windows,全linux做个小说站不是很酷炫吗？

windows用关关，我挺怕毒的

判官 · 发表于 2015-9-12 11:01:01

提示: 作者被禁止或删除内容自动屏蔽

jsenet · 发表于 2015-9-12 11:01:56

补充运行输出：

[11:10:44] 采集更新列表线程启动。
[11:10:45] 采集更新列表结束，用时：0.368046998978秒
书号:1257715无更新，旧字数:508549 新字数:508549  忽略。
书号:437108无更新，旧字数:3070245 新字数:3070245  忽略。
书号:590918无更新，旧字数:3810696 新字数:3810696  忽略。
书号:620124无更新，旧字数:4076192 新字数:4076192  忽略。
书号:751367无更新，旧字数:483636 新字数:483636  忽略。
书号:1025286无更新，旧字数:1010276 新字数:1010276  忽略。
书号:1209867无更新，旧字数:402752 新字数:402752  忽略。
书号:1236313无更新，旧字数:412536 新字数:412536  忽略。
书号:1248996无更新，旧字数:624019 新字数:624019  忽略。
书号:1069691无更新，旧字数:632495 新字数:632495  忽略。
书号:1238897无更新，旧字数:1446324 新字数:1446324  忽略。
书号:450860无更新，旧字数:5390083 新字数:5390083  忽略。
书号:963814无更新，旧字数:2842104 新字数:2842104  忽略。
书号:1044983无更新，旧字数:862496 新字数:862496  忽略。
书号:1178582无更新，旧字数:1016061 新字数:1016061  忽略。
书号:1255119无更新，旧字数:616432 新字数:616432  忽略。
书号:864061无更新，旧字数:3370699 新字数:3370699  忽略。
书号:1274700无更新，旧字数:420318 新字数:420318  忽略。
书号:1023720无更新，旧字数:1166304 新字数:1166304  忽略。
书号:1294239无更新，旧字数:427892 新字数:427892  忽略。
书号:957915无更新，旧字数:2136523 新字数:2136523  忽略。
书号:1277060无更新，旧字数:402957 新字数:402957  忽略。
书号:1249950无更新，旧字数:474150 新字数:474150  忽略。
书号:1031064无更新，旧字数:1588539 新字数:1588539  忽略。
书号:1045140无更新，旧字数:420024 新字数:420024  忽略。
书号:1085231无更新，旧字数:1275791 新字数:1275791  忽略。
书号:1151002无更新，旧字数:591414 新字数:591414  忽略。
书号:947110无更新，旧字数:394048 新字数:394048  忽略。
书号:1027863无更新，旧字数:1080509 新字数:1080509  忽略。
书号:1190382无更新，旧字数:750707 新字数:750707  忽略。
[11:10:45] 采集更新列表线程完成，线程休眠。
t0线程空闲
t1线程空闲
t2线程空闲

		自动登录	找回密码
密码			注册

天也就这么大天也就这么大当前离线积分 5020	发表于 2015-9-12 10:55:40 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
天也就这么大天也就这么大当前离线积分 5020
	回复支持反对举报

判官判官当前离线积分 10917	发表于 2015-9-12 11:01:01 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
判官判官当前离线积分 10917
	回复支持反对举报

【python】放出杰奇后台全自动多线程采集，同步目标站最...

评分

相关帖子

点评

浏览过的版块