2014年09月25日
⁄ 测试工具, 软件测试
⁄ 共 1466字
⁄ 阅读 9,118 次
本文主要介绍编写Python网页爬虫的基本原理,同时以抓取百度贴吧内容的实例进行讲解。
1. 需要掌握的基础知识:
urllib2模块
re模块 (正则表达式)
2. 网页爬虫基本流程:
打开网页- >分析网页内容,编写正则表达式->筛选所需内容->进行必要特殊符号转码处理
3. 具体流程介绍
重点介绍下页面分析的方法:
1. 使用chrome浏览器,打开示例页面http://tieba.baidu.com/p/3295185529?see_lz=1
2. 在帖子标题处,右键选择"审...
Python, re, urllib2, 正则表达式, 爬虫, 网页, 贴吧阅读全文
如果需要在shell下面实现,可以考虑 ech
我也学习下。
没用呀,你怎么做到的?
经测试Wing Pro 6.0.6下使用这个算号
按照楼主的方法试了,果然OK了。那些说没有用的,
留言是种美德,写点什么...
我使用了,但是没用
有可能是同一个模块下有个别文件名和库的保留字重复
这个代码时在哪儿写的啊?