博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫笔记1
阅读量:5042 次
发布时间:2019-06-12

本文共 1862 字,大约阅读时间需要 6 分钟。

最近几天学习总结
===================================================================
python常用标准库: https://www.cnblogs.com/haochengdu/p/8855028.html
====================================================================

   在笔者摸索使用Python处理图片时,发现一个非常好的包:opencv,

====================================================================
python中包含了两个网络模块: urllib 和 urllib2. urllib2是urllib的升级版.   urllib: 让我们像读文件一样,读取http和ftp   urllib2 在urllib的基础上,提供了更多接口, 如 cookie、代理、认证等更强大的功能 urllib常用函数:urllib。urlopen()          字符编码辅助函数:             urllib.quote() 对字符串进行编码 urllib2常用参数:     urllib2.urlopen()     urllib2.Request(url,data,headers) ====================================================================
python第三方库: requests,BeautifulSoup,Selenium,lxml, Pillow,Scrapy
====================================================================== requests:  基于urllib,完全满足HTTP测试需求, 支持python3,
      支持国际化的url和post数据的自动解码
      主要功能: 发送请求传递参数,返回resongse对象,上传文件,身份验证, cookie与会话对象
          (使用requests方法(发送请求传递参数)后, 会返回一个response对象,其存储了服务器响应的内容)
BeautifulSoup:     是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.     BeautifulSoup配合Request使用,能大大提高爬虫效率。      整合了一些常用爬虫需求,但是不能加载jS
    bs4跟xpath正则一样,都是文本解析器      bs4是载入整个文档进行dom解析,运行性能上要比lxml低一些       工具  速度  使用难度       正则  最快  困难       bs4   慢    最简单       lxml  块    简单
   Tag对象    遍历文档树    搜索文档树     CSS选择器    解析部分文档    Selenium:
      
       Selenium:   参考: https://blog.csdn.net/qq_29186489/article/details/78661008   selenium用于爬虫,主要是用来解决javascript渲染的问题   详细用法:     1) 声明浏览器对象     2) 访问页面     3) 查找单个/多个元素     4) 元素的交互操作  对获取到的元素调用交互方法     5) 交互动作: 把动作附加到交互链中     6) 执行javascript     7) 获取元素信息: 属性,文本值, ID, 位置,大小,标签名     8) 等待 time.sleep(1)     9) 浏览器的前进和后退     10)cookies的出路     11) 选项卡处理     12) 异常处理         -l chi-sim 参考来源:https://www.cnblogs.com/mrchige/p/6409444.html

转载于:https://www.cnblogs.com/jliu520222/p/9767672.html

你可能感兴趣的文章
金融系列12《双币电子现金方案》
查看>>
python003
查看>>
导出Excel
查看>>
《ASP.NET AJAX程序设计——第II卷:客户端Microsoft AJAX Library与异步通讯层》序
查看>>
Failover cluster中遇到的几个问题
查看>>
20162330 实验一 《Java开发环境的熟悉》 实验报告
查看>>
Hive的UDF(用户自定义函数)开发
查看>>
堆栈区别:
查看>>
微信公众号开发之自定义菜单
查看>>
SVN操作小记
查看>>
wrodcount
查看>>
牛客小白月赛4——H-相邻的糖果
查看>>
手把手教你怎么用动软.net代码生成器 搭建三层架构
查看>>
个人对团队项目的意见以及对项目需求的分析
查看>>
14.DNS:域名系统
查看>>
函数初识(函数的返回值,三元运算,函数的传参)
查看>>
object detection模型转换成TensorFlow Lite,在Android应用
查看>>
54.文件按大小切割
查看>>
fonts.useso.com 访问变慢
查看>>
【NGN学习笔记】3 软交换中的协议1--SIP、SIP-I/SIP-T/BICC
查看>>