现在位置: 首页 > 贴吧
2014年09月25日 测试工具, 软件测试 ⁄ 共 1466字 评论 1 条 ⁄ 阅读 5,629 次
Python网页爬虫入门——抓取百度贴吧内容实例
本文主要介绍编写Python网页爬虫的基本原理,同时以抓取百度贴吧内容的实例进行讲解。 1. 需要掌握的基础知识: urllib2模块 re模块 (正则表达式) 2. 网页爬虫基本流程: 打开网页- >分析网页内容,编写正则表达式->筛选所需内容->进行必要特殊符号转码处理 3. 具体流程介绍 重点介绍下页面分析的方法: 1. 使用chrome浏览器,打开示例页面http://tieba.baidu.com/p/3295185529?see_lz=1 2. 在帖子标题处,右键选择"审...
阅读全文