最近几天学习总结
===================================================================
python常用标准库: https://www.cnblogs.com/haochengdu/p/8855028.html
====================================================================
在笔者摸索使用Python处理图片时,发现一个非常好的包:opencv,
====================================================================
python中包含了两个网络模块: urllib 和 urllib2. urllib2是urllib的升级版. urllib: 让我们像读文件一样,读取http和ftp urllib2 在urllib的基础上,提供了更多接口, 如 cookie、代理、认证等更强大的功能 urllib常用函数:urllib。urlopen() 字符编码辅助函数: urllib.quote() 对字符串进行编码 urllib2常用参数: urllib2.urlopen() urllib2.Request(url,data,headers) ====================================================================
python第三方库: requests,BeautifulSoup,Selenium,lxml, Pillow,Scrapy
====================================================================== requests: 基于urllib,完全满足HTTP测试需求, 支持python3,
支持国际化的url和post数据的自动解码
主要功能: 发送请求传递参数,返回resongse对象,上传文件,身份验证, cookie与会话对象
(使用requests方法(发送请求传递参数)后, 会返回一个response对象,其存储了服务器响应的内容)
BeautifulSoup: 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautifulSoup配合Request使用,能大大提高爬虫效率。 整合了一些常用爬虫需求,但是不能加载jS
bs4跟xpath正则一样,都是文本解析器 bs4是载入整个文档进行dom解析,运行性能上要比lxml低一些 工具 速度 使用难度 正则 最快 困难 bs4 慢 最简单 lxml 块 简单
Tag对象 遍历文档树 搜索文档树 CSS选择器 解析部分文档 Selenium:
Selenium: 参考: https://blog.csdn.net/qq_29186489/article/details/78661008 selenium用于爬虫,主要是用来解决javascript渲染的问题 详细用法: 1) 声明浏览器对象 2) 访问页面 3) 查找单个/多个元素 4) 元素的交互操作 对获取到的元素调用交互方法 5) 交互动作: 把动作附加到交互链中 6) 执行javascript 7) 获取元素信息: 属性,文本值, ID, 位置,大小,标签名 8) 等待 time.sleep(1) 9) 浏览器的前进和后退 10)cookies的出路 11) 选项卡处理 12) 异常处理 -l chi-sim 参考来源:https://www.cnblogs.com/mrchige/p/6409444.html