|
|
了解Web前端,熟悉HTTP,系统学习Python urllib库HTTP编程模块,requests网络编程库,BeautifulSoup4 HTML转换解析,并发数据采集、提取、存储,熟悉Selenium 2框架工具应用,并掌握常见反爬虫手段应对,以及爬取陷阱应用等知识!达到独立开发Python网络爬虫程序以完成数据数据采集!
! E* T. p+ p3 D b, k. w5 Z) v课程目录:, [/ h# @: k3 [9 l& t( z
1 准备工具+ r: b9 i h) @$ b# T# I
2 网站与网页
+ K4 B& p+ z& F( F9 d* v# ^3 HTTP超文本传输协议基础
, A) _) s, E7 N6 l8 P6 A4 HTTP资源
5 C% ^: I+ N/ ~3 B+ x( m5 HTTP 消息
3 \/ j5 @8 @4 k" H: C! I6 Python 标准库 urllib应用 I5 D3 b3 P& b2 M" n
7 Python 标准库 urllib应用 II* n0 J1 K# i/ \' D" N) B
8 Web Cookies- C/ D, h9 x+ ^; D8 O
9 requests HTTP编程2 ?" ]7 j$ T9 G. F4 Y' b
10 数据爬取与采集
+ @$ h* [2 U8 R) a# x5 J11 BeautifulSoup4 HTML解析与提取) _6 h" {6 L l% f+ b1 ]
12 爬虫性能与并发处理' z9 b) g- E- i2 t* z e
13 数据存储之:文本CSVExcel& _( q K: m8 A9 v
14 数据存储之:SQL关系型数据库
* u5 W0 i/ h/ | B! K) _15 数据存储之:MongoDB, x A4 b& b/ m
16 表单与登录% K |) S# E' [9 I9 h
17 爬虫验证码处理机制
$ n5 c7 p- Y+ z. H6 p18 Selenium 2框架应用
% `3 d& S4 u x; S d3 l; N0 @19 爬虫陷阱之动态内容处理& V$ R" e$ W. n' k3 v
20 爬虫测试
5 N, q! k' _1 M" H
; L# u2 o5 J* u4 R5 q+ }7 r# N! T
; Q- F. g& A( @6 C5 f: h% D- z2 ? |
|