首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
拉勾
V2EX  ›  程序员

Python 爬虫 分析网易 163 邮箱的邮件列表节点(加载方式)遇到阻碍...

  •  
  •   Northxw · 10 天前 · 626 次点击

      网易的产品给我的感觉亲和力还挺好的,网易新闻连 robots.txt 都没有,默认允许所有爬虫的爬取行为。今天爬取网易 163 邮箱,却着实碰到了一个硬茬,邮件列表的 div 一直获取不到,我自己分析了两种可能:

    • Js 加载
    • 隐藏的 iframe 节点   首先申明,我不是学前后端的,我对前端略有涉猎,后端基本全无,所以分析过程比较困难,求解答。。。
    7 回复  |  直到 2019-03-15 22:39:15 +08:00
        1
    takemefly   10 天前
    应该是 JS 加载。有前端知识的话,可以了解这个开源抓取器 https://gitee.com/golddata/golddata-spider,里面提到了一个免费社区板试试。
        2
    Northxw   10 天前
    @takemefly 爬虫自动化工具呗 嘿嘿 不过我还是想自己搞
        3
    krixaar   10 天前
    爬邮件内容的话,应该是只能爬自己的邮箱,如果是爬自己的邮箱,为啥不直接把邮件 IMAP 下来……
    从 126 看是一个到 mail(dot)126(dot)com/js6/s?sid=(cookie:Coremail.sid)&func=mbox:listMessages&deftabclick=t3 的 xhr,POST 一个特定格式的 xml,然后直接回一个 json 的邮件完整列表。
        4
    Northxw   10 天前
    @krixaar 我的初衷是用 Selenium 登录加爬取邮件,如果那样的话,太千篇一律了。。。
        5
    coolloves   9 天前 via iPhone
    @Northxw 如果是收取邮件,好像可以直接通过 pop 模块获取吧
        6
    locoz   9 天前 via Android
    直接用协议不是方便很多吗
        7
    Northxw   9 天前
    @coolloves 你好,不是直接收取邮件。而是获取邮件列表中所以邮件的有效信息。。。

    @locoz 协议固然方便,哈哈。 不过我还是希望自己通过 Selenium 实现下,不想太千篇一律。。。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2739 人在线   最高记录 4385   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 17ms · UTC 13:34 · PVG 21:34 · LAX 06:34 · JFK 09:34
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1