现在位置: 首页 > urllib2
2016年01月29日 测试技术 ⁄ 共 3865字 暂无评论 ⁄ 阅读 196 次
本文主要介绍python访问网页使用cookie的方法。 Cookie,是网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常会加密) 在此之前,必须先介绍一个opener的概念。 1.Opener 当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。 之前我们都是使用的默认的opener,也就是urlopen。它是一个特殊的opener,可以理解成opener的一个特殊实例,传入的参数仅仅是url,data,timeout。 如果我们...
阅读全文

最近使用urllib2时,因为urllib2.Request默认使用POST请求,而Http服务器只支持HEAD或GET等请求,此时请求就会返回错误"HTTP Error 405: Method Not Allowed"。 整理的解决方法如下: 1. 模拟Head请求 使用urllib2时,正常代码如下,若服务器只支持HEAD请求则会报错"HTTP Error 405: Method Not Allowed"。 import urllib2 request = urllib2.Request('http://localhost:80') response = urllib2.urlopen(request) print...
阅读全文
2015年01月06日 测试工具, 软件测试 ⁄ 共 1267字 评论 1 条 ⁄ 阅读 2,196 次
1.      urllib2库简介 urllib2是python自带的一个访问网页及本地文件的库。 与urllib相比,显著区别之处在于: 1) urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL。这意味着,用urllib时不可以伪装User Agent字符串等。 2) urllib提供urlencode方法用来encode发送的data,而urllib2没有。这是为何urllib常和urllib2一起使用的原因。 2.      使用介绍 访问网页简单用法如下: import url...
阅读全文
2014年09月25日 测试工具, 软件测试 ⁄ 共 1466字 评论 1 条 ⁄ 阅读 5,685 次
Python网页爬虫入门——抓取百度贴吧内容实例
本文主要介绍编写Python网页爬虫的基本原理,同时以抓取百度贴吧内容的实例进行讲解。 1. 需要掌握的基础知识: urllib2模块 re模块 (正则表达式) 2. 网页爬虫基本流程: 打开网页- >分析网页内容,编写正则表达式->筛选所需内容->进行必要特殊符号转码处理 3. 具体流程介绍 重点介绍下页面分析的方法: 1. 使用chrome浏览器,打开示例页面http://tieba.baidu.com/p/3295185529?see_lz=1 2. 在帖子标题处,右键选择"审...
阅读全文