博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
第三百四十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—Requests请求和Response响应介绍...
阅读量:6832 次
发布时间:2019-06-26

本文共 2526 字,大约阅读时间需要 8 分钟。

第三百四十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—Requests请求和Response响应介绍

 

Requests请求

Requests请求就是我们在爬虫文件写的Requests()方法,也就是提交一个请求地址,Requests请求是我们自定义的

Requests()方法提交一个请求

  参数:

  url=  字符串类型url地址

  callback= 回调函数名称

  method= 字符串类型请求方式,如果GET,POST

  headers= 字典类型的,浏览器用户代理

  cookies= 设置cookies

  meta= 字典类型键值对,向回调函数直接传一个指定值

  encoding= 设置网页编码

  priority= 默认为0,如果设置的越高,越优先调度

  dont_filter= 默认为False,如果设置为真,会过滤掉当前url

 

# -*- coding: utf-8 -*-import scrapyfrom scrapy.http import Request,FormRequestimport reclass PachSpider(scrapy.Spider):                            #定义爬虫类,必须继承scrapy.Spider    name = 'pach'                                           #设置爬虫名称    allowed_domains = ['www.luyin.org/']                    #爬取域名    # start_urls = ['']                                     #爬取网址,只适于不需要登录的请求,因为没法设置cookie等信息    header = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'} #设置浏览器用户代理 def start_requests(self): #起始url函数,会替换start_urls """第一次请求一下登录页面,设置开启cookie使其得到cookie,设置回调函数""" return [Request( url='http://www.luyin.org/', headers=self.header, meta={
'cookiejar':1}, #开启Cookies记录,将Cookies传给回调函数 callback=self.parse )] def parse(self, response): title = response.xpath('/html/head/title/text()').extract() print(title)

 

 

 

Response响应

Response响应是由downloader返回的响应

Response响应参数

  headers 返回响应头
  status 返回状态吗
  body 返回页面内容,字节类型
  url 返回抓取url

# -*- coding: utf-8 -*-import scrapyfrom scrapy.http import Request,FormRequestimport reclass PachSpider(scrapy.Spider):                            #定义爬虫类,必须继承scrapy.Spider    name = 'pach'                                           #设置爬虫名称    allowed_domains = ['www.luyin.org/']                    #爬取域名    # start_urls = ['']                                     #爬取网址,只适于不需要登录的请求,因为没法设置cookie等信息    header = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'} #设置浏览器用户代理 def start_requests(self): #起始url函数,会替换start_urls """第一次请求一下登录页面,设置开启cookie使其得到cookie,设置回调函数""" return [Request( url='http://www.luyin.org/', headers=self.header, meta={
'cookiejar':1}, #开启Cookies记录,将Cookies传给回调函数 callback=self.parse )] def parse(self, response): title = response.xpath('/html/head/title/text()').extract() print(title) print(response.headers) print(response.status) # print(response.body) print(response.url)

 

 

转载地址:http://umjkl.baihongyu.com/

你可能感兴趣的文章
canvas图形处理和进阶用法
查看>>
1. 请问PHP里的ECHO是什么意思 ?请问PHP里的ECHO是什么意思???有什么作用???又应该怎么使用???...
查看>>
ES6,数组遍历
查看>>
如何把浏览器不信任的网址设置为可信任的网点
查看>>
脚本加密http://www.datsi.fi.upm.es/~frosal/sources/
查看>>
Cocos Studio is EOL'd
查看>>
linux shell下16进制 “\uxxxx” unicode to UTF-8中文
查看>>
【WPF】树形结构TreeView的用法(MVVM)
查看>>
Go -- 读取文件内容
查看>>
cURL介绍
查看>>
css样式布局中position的那些事儿
查看>>
mysql慢查询日志相关参数
查看>>
项目中如果管理前端文件CSS和JS
查看>>
13 jsp include
查看>>
Nginx和PHP-FPM的启动、重启、停止脚本分享(转)
查看>>
如何拷贝CMD命令行文本到粘贴板
查看>>
Oracle数据库—— 存储过程与函数的创建
查看>>
兼容iOS 10 资料整理笔记
查看>>
逻辑回归原理小结
查看>>
php 7.0 安装以及老版本php删除
查看>>