首页   注册   登录
 jakeyfly 最近的时间轴更新

jakeyfly

  •   V2EX 第 66927 号会员,加入于 2014-07-03 20:36:34 +08:00
    怎么把‘[x,x,x,x,]’这样的字符串变为列表啊
    问与答  •  jakeyfly  •  58 天前  •  最后回复来自 ipwx
    15
    Python 如何实现对单页面增量爬取呢?
    问与答  •  jakeyfly  •  60 天前  •  最后回复来自 ebingtel
    6
    Python 里 引包的值的问题,可能比较偏门
    问与答  •  jakeyfly  •  70 天前  •  最后回复来自 littlewey
    12
    jakeyfly 最近回复了
    @qwjhb 大佬的意思是他网站前端的脚本操作的是吧
    没有大佬知道吗
    @Kilerd 这个是学习队列的?
    @Kilerd 英文看不懂
    今天大佬们都不在啊
    @locktionc 有了解过 但总感觉 有那么点不对
    @fiht 可能我没说明白 不好意思哈 我换种说法,比如 我监控 1000 个页面,我 20 分钟扫描一次这一千个页面,任务发布需要从另一个地方提取数据构造这一千个 URL,压进队列里,我想控制的是这一千个 URL 之间的频率,比如扫 20 个休息 10 秒,这 20 个是并发多线程 ,我现在是用 futues 弄的 设置 20 个线程 他就是同时爬 20 个 但是是连续的。我怕我的代理池顶不住,就想控制其频率。而且这样完全自己写,发布任务的轮询实现的也不理想。就想有没有成熟的包或框架可以用。(其间还要根据每个 URL 的壮态,判定是不是剔除出来,不再发布这个任务)
    @ericls 好高端 还没接触过
    @Trim21 这好像不错,不过这执行的有点快啊 爬虫太快了会被 BAN 的 有没有办法控制间隔或者速度啊
    @binux 我觉得 celery 更像 futuer
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   1705 人在线   最高记录 3541   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.1 · 11ms · UTC 08:06 · PVG 16:06 · LAX 01:06 · JFK 04:06
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1