博客
关于我
Selenium实现微博爬虫
阅读量:182 次
发布时间:2019-02-28

本文共 302 字,大约阅读时间需要 1 分钟。

抓取节点:将每条评论作为一个节点(包含用户信息、评论内容及发布时间等信息)。若一页有20条评论,则节点数量即为20。

节点获取:通过CSS选择器div.card > div.card-feed > div.content找到所有符合条件的节点。

节点处理:逐个遍历节点列表,判断每个节点是否包含“展开全文”链接。操作步骤如下:

  • 检查节点中是否存在p > a[action-type='fl_unfold']元素
  • 判断该链接的显示状态
  • 如果满足条件,且链接文本以“展开全文c”开头:

    • 点击该链接,获取指定位置的评论内容
    • 否则,直接获取评论文本
    • 同时,提取用户信息

    注:该操作需确保唯一性,避免误选其他元素。

    转载地址:http://tdfn.baihongyu.com/

    你可能感兴趣的文章
    Redis从库不能同步报Can’t save in background: fork: Cannot allocate memory错误
    查看>>
    Redis从入门到精通|干货篇
    查看>>
    php.ini maxfileuploads,细说PHP高洛峰文件上传类源文件
    查看>>
    php.ini中常见的配置信息选项
    查看>>
    php.ini配置中有10处设置不当,会使网站存在安全问题
    查看>>
    php/jsp/asp的区别
    查看>>
    php20个主流框架
    查看>>
    php301到https,虚拟主机设置自动301跳转到HTTPS
    查看>>
    php5 apache 配置
    查看>>
    php5 升级 php7 版本遇到的问题处理方法总结
    查看>>
    PHP5.3.3安装Mcrypt扩展
    查看>>
    PHP5.4 + IIS + Win2008 R2 配置
    查看>>
    PHP5.4 pfsocketopen函数判断sock是否存活的bug(由memcached引起)
    查看>>
    Redis从入门到精通
    查看>>
    PHP5.6.x编译报错:Don't know how to define struct flock on this system, set --enable-opcache=no
    查看>>
    php5ts.dll 下载_php5ts.dll下载
    查看>>
    php7
    查看>>
    PHP7 新特性
    查看>>
    PHP7+MySQL5.7+Nginx1.9. on Ubuntu 14.0
    查看>>
    php7.1.6 + redis
    查看>>