博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
微信公众号爬虫
阅读量:4101 次
发布时间:2019-05-25

本文共 292 字,大约阅读时间需要 1 分钟。

需要爬取某个公众号的阅读量、评论量和点赞量。不得不说微信的反爬挺让人头疼的。不过细心抓包还是能找到规律的。但是大规模爬公众号我目前还没想出来,仅仅针对某个公众号爬取。

过程中遇到一个问题。我是用python爬取的,用的requests==2.19.5。但是请求的时候老是报错:HTTPSConnectionPool(host=‘’, port=443): Max retries exceeded with url:…

一开始我以为是headers或者cookies设置错误,抓了半天包无果。最后偶然发现说这种错误可能是requests库造成的。升级一下requests,果然就好了!

转载地址:http://uwksi.baihongyu.com/

你可能感兴趣的文章
年轻人不讲武德,竟然重构出这么优雅后台 API 接口
查看>>
这份笔记研究完,进大厂是个“加分项”...
查看>>
写代码有这16个好习惯,可以减少80%非业务的bug
查看>>
《我想进大厂》之Spring夺命连环10问
查看>>
空指针的传说
查看>>
为什么阿里巴巴禁止使用 Executors 创建线程池?
查看>>
面试官问我平时怎么看源码的,我把这篇文章甩给他了。
查看>>
这十一条程序员必备软技能,你一定要知道
查看>>
为什么你写的拦截器中不能注入Java bean?
查看>>
2020 年度编程语言排行榜出炉!C 语言称霸,Java 遭遇滑铁卢…….
查看>>
Android中屏幕密度和图片大小的关系分析
查看>>
树立个人品牌:让名企hr们主动来找你
查看>>
Ubuntu上Lamp的搭建
查看>>
Android内核解读-Android系统的开机启动过程
查看>>
Android内核解读-应用的安装过程
查看>>
Android Binder机制浅析
查看>>
killall & killall -9
查看>>
linux top %VSZ含义
查看>>
gcc 编译顺序问题
查看>>
基于flask的在线笔记共享管理系统【10】(密码加密passlib)
查看>>