itsme
发表于 2018-3-14 18:47:16
savior 发表于 2018-3-14 17:57
感觉我和楼上大佬一样的,跳过几十个以后就报错了,一脸懵逼
刚刚我在一个新的空目录下再运行脚本,下了10多个后脚本直接被killed了,也不知道什么原因。
或者你可以尝试新目录看看。
mylyne
发表于 2018-3-14 19:02:50
我想问一下为什么这个脚本不能在挂载的gdriver或者onedrive上面运行?LZ的其他脚本可以
半潜军长
发表于 2018-3-14 19:18:18
mylyne 发表于 2018-3-14 19:02
我想问一下为什么这个脚本不能在挂载的gdriver或者onedrive上面运行?LZ的其他脚本可以 ...
用什么挂载的 大佬 rclone 还是gd
http://hostloc.wiki/thread-435393-1-2.html 这个说法我没搞明白 唉
itsme
发表于 2018-3-14 20:10:02
Traceback (most recent call last):
File "spider.py", line 85, in <module>
run()
File "spider.py", line 83, in run
time.sleep(sleep_time)
NameError: name 'sleep_time' is not defined
用最新脚本运行一段时间后出现这个错误
itsme
发表于 2018-3-14 21:05:37
楼主,最后的time.sleep(sleep_time)这个是拼写错误?是否应该是time.sleep(time_sleep)?
另外现在的问题是,目录里面有已经下载过的文件,重新运行脚本会略过这些文件(这个很好),不过这个读取这些下载过文件的速度是否过快导致这个步骤还没过去(我有700多个文件)就会被网站判断为爬虫了。
time.sleep(20)要放到哪个位置才能有效?
eqblog
发表于 2018-3-14 21:14:42
itsme 发表于 2018-3-14 21:05
楼主,最后的time.sleep(sleep_time)这个是拼写错误?是否应该是time.sleep(time_sleep)?
另外现在的问题 ...
yc006t把time_sleep这个换成数字就好了。。
savior
发表于 2018-3-14 21:16:49
好像这个账号被BAN了……
eqblog
发表于 2018-3-14 21:19:45
savior 发表于 2018-3-14 21:16
好像这个账号被BAN了……
对~已经失效了
savior
发表于 2018-3-14 21:25:49
eqblog 发表于 2018-3-14 21:19
对~已经失效了
大佬神通广大,求再分享,先MARKyc019t
流量之神
发表于 2018-3-14 22:03:08
请问这个脚本可以断点采集吗?第二次接着第一次的采集继续爬