第七章Scrapy爬虫

Imagemap

hide

第七章Scrapy爬虫

hide

hide

了解Scrapy爬虫的框架

hide

leaf

引擎负责控制数据流在系统所有组件中的流向，并在不同的条件时触发相对应的事件。这个组件相当于爬虫的“大脑”，是整个爬虫的调度中心

hide

leaf

度器从引擎接受请求并将它们加入队列，以便之后引擎需要它们时提供给引擎

hide

leaf

下载器的主要功能是: 获取网页内容将内容提供给引擎和Spiders

hide

leaf

Spiders是Scrapy用户编写用于分析响应，并提取Items或额外跟进的URL的一个类。每个Spider负责处理一个（一些）特定网站

hide

leaf

主要是处理被Spiders提取出来的Items,如清理、验证及持久化（存数据库）

hide

下载器中间件

leaf

下载器中间件是一组在引擎及下载器之间的特定钩子（specific hook），主要是处理下载器传递给引擎的响应（response）

hide

Spider中间件

leaf

Spider中间件是一组在引擎及Spiders之间的特定钩子(specific hook）

hide

熟悉Scrapy的常用命令

hide

leaf

scrapy startproject project1

leaf

scrapy genspider spider1

leaf

hide

leaf

scrapy crawl spider1

leaf

leaf

hide

通过Scrapy爬取文本信息

hide

创建Scrapy爬虫项目

leaf

scrapy startproject tspider D:\课程资源-Python网络爬虫\code

hide

修改item/pipelines脚本

hide

leaf

class TspiderItem(scrapy.Item):
title = scrapy.Field()
text = scrapy.Field()
time = scrapy.Field()
url = scrapy.Field()

hide

编写pipelines

leaf

def process_item(self, item, spider):
data = pd.DataFrame(dict(item))
data.to_sql('tipdm_data', self.engine, if_exists='append', index=False)
data.to_csv('TipDM_data.csv', mode='a+', index=False, sep='|', header=False)
return item

hide

leaf

scrapy genspider tipdm www.tipdm.com

hide

编写spider脚本

leaf

class TipdmSpider(scrapy.Spider):
name = 'tipdm'
allowed_domains = ['www.tipdm.com']
# start_urls = ['http://www.tipdm.com/']
start_urls = ['http://www.tipdm.com/mtbd/index.jhtml']

def parse(self, response):
......

hide

修改settings脚本

hide

添加item_pipelline

leaf

ITEM_PIPELINES = { 'tspider.pipelines.TspiderPipeline': 300, }

hide

定制中间件

hide

定制下载器中间件

hide

messagebox_warning

激活下载中间件

leaf

DOWNLOADER_MIDDLEWARES = {
'tspider.middlewares.RandomUserAgent': 540,
'tspider.middlewares.RandomProxy': 541,
'tspider.middlewares.TspiderDownloaderMiddleware': 543,
'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware':0,
}

hide

定制Spider中间件

hide

Scrapy自带的Spider中间件

leaf

Spider中间件是介入到Scrapy中的Spiders处理机制的钩子框架

hide

激活Spider中间件

leaf

激活Spider中间件组件基本与激活下载器中间件相同，需要将定制的Spider中间件加入到settings脚本下的SPIDER_MIDDLEWARES设置中

leaf

若要取消默认值,需要在SPIDER_MIDDLEWARES设置中将中间件的值设置为0

hide

hide

实训一:爬取www.tipdm.org的新闻

hide

leaf

掌握创建Scrapy爬虫项目的方法

leaf

掌握创建spider脚本模板的方法

leaf

掌握定义items/pipelines脚本的方法

leaf

掌握数据写入CSV文件与数据库的方法

leaf

掌握spider脚本的编写规则与方法

leaf

掌握常见设置的取值与修改settings脚本的方法

hide

leaf

使用Scrapy框架快速构建高效爬虫应用

leaf

使用Scrapy框架爬取网站www.tipdm.org的网站上的新闻

leaf

使用Scrapy常用命令

leaf

掌握修改items,pipelines,settings脚本

leaf

编写spider脚本的基本规则与技巧

hide

leaf

full-1

打开命令行/控制台,进入目录:D:\课程资源-Python网络爬虫\code

leaf

full-2

运行创建项目命令：scrapy startproject tspider D:\课程资源-Python网络爬虫\code

hide

full-3

修改items脚本

leaf

class TspiderItem(scrapy.Item):
title = scrapy.Field()
text = scrapy.Field()
time = scrapy.Field()
url = scrapy.Field()
weburl = scrapy.Field()
collector = scrapy.Field() #'张三' #请改为自已的名字
coll_time = scrapy.Field() #datetime.datetime.now()
view_count = scrapy.Field()

leaf

full-4

修改pipelines脚本，将数据最终输出到csv文件和mysql数据库

leaf

full-5

进入tspider目录，创建spider：scrapy genspider tipdm www.tipdm.com

leaf

full-6

编写spider脚本，使其能够抓取新闻动态网页，以及每个网页的标题、正文等信息

hide

full-7

hide

设置item pipelines

leaf

ITEM_PIPELINES = {
'tspider.pipelines.TspiderPipeline': 300,
}

leaf

设置网页延迟5秒

leaf

使用HTTP缓存

hide

leaf

http://i.hddly.cn/media/tspider.rar

User Link