redtube爬虫发布~~~~~~~~~~~~~~~~~~~~~~~~~~~~
yc022t 标题一定要长默认爬取720P的清晰度,如果需要更低清晰度请修改代码87行。
爬取的页面是https://www.redtube.com/mostviewed
权限1其实是游客也可见的。。。 本帖最后由 全球资源提供商 于 2018-5-4 15:19 编辑
没什么卵用
我会告诉你我有超100T的资源
光tumblr就有20w
Update #0
分享不现实, 文件太多太大, 而且流量很贵
Update #1
看来你们对汤不热很有兴趣, 我给个逻辑
首先 你要维护一个用户列表, 就是更新资源的用户
然后循环这个列表去采集 就好了, 注意维护一个URL队列 去重用途
我是用的官方API来采集
逻辑这样
内容服务器
#1 采集
判断用户内容数量 如果和上次采集的数量一样
如果多 则代表有更新 采集 自动去重
标记为未下载
存储服务器
#2 下载
读取队列 查询未下载的
下载文件和图片 存储本地
#3 效验
我用的最简单的方法 判断文件是不是存在,且文件大小大于0
这样就好了
全球资源提供商 发表于 2018-5-4 13:35
没什么卵用
我会告诉你我有超100T的资源
yc022t 有用就不会发布了 呵呵 yongs 发表于 2018-5-4 13:40
求gd分享。
tongqiu 全球资源提供商 发表于 2018-5-4 13:35
没什么卵用
我会告诉你我有超100T的资源
赶紧的,分享一下,让我也瞧瞧 全球资源提供商 发表于 2018-5-4 13:35
没什么卵用
我会告诉你我有超100T的资源
不分享让论坛兄弟bao你菊花不用润滑油 用辣椒酱!yc010t 大佬10元的鸡鸡可以下载吗?
页:
[1]
2