更新时间:2017-11-14 来源:黑马程序员 浏览量:
现在,有越来越多所谓的“教程”来帮助我们提高爬虫的易用性。本人收集了一些在爬虫开发中容易出错和被难住的小问题,提供了参考的意见和想法,以便于帮助爬虫开发者。
1、爬虫乱码(网址乱码、返回页面乱码、提交数据乱码)
关于爬虫乱码有很多群友的各式各样的问题,不仅是中文乱码,还包括一些如日文、韩文 、俄文、藏文之类的乱码处理,因此确定源网页的编码。
2、含有验证码表单登陆
属于post请求,即先向服务器发送表单数据,需要验证码的情况可以使用带验证码登陆的cookie解决。
3、 使用代理
适用情况:限制IP地址情况,最好的办法就是维护一个代理IP池。
4、限制频率情况
限制爬虫访问网站的频率来避免被网站禁掉。
5、 “反盗链”
加上Referer,伪装成浏览器。
6、自动化测试工具Selenium
Selenium是一款自动化测试工具。它能实现操纵浏览器,包括字符填充、鼠标点击、获取元素、页面切换等一系列操作。
7、验证码识别
利用开源的Tesseract-OCR。
8、多线程抓取
高并发提交采集效率。友情提示:获得更多学科学习视频+资料+源码,请加QQ:3276250747。
本文版权归黑马程序员人工智能+Python学院所有,欢迎转载,转载请注明作者出处。谢谢!
作者:黑马程序员人工智能+Python培训学院
【AI设计】北京143期毕业仅36天,全员拿下高薪offer!黑马AI设计连续6期100%高薪就业
2025-09-19【跨境电商运营】深圳跨境电商运营毕业22个工作日,就业率91%+,最高薪资达13500元
2025-09-19【AI运维】郑州运维1期就业班,毕业14个工作日,班级93%同学已拿到Offer, 一线均薪资 1W+
2025-09-19【AI鸿蒙开发】上海校区AI鸿蒙开发4期5期,距离毕业21天,就业率91%,平均薪资14046元
2025-09-19【AI大模型开发-Python】毕业33个工作日,就业率已达到94.55%,班均薪资20763元
2025-09-19【AI智能应用开发-Java】毕业5个工作日就业率98.18%,最高薪资 17.5k*13薪,全班平均薪资9244元
2025-09-19