第三百四十六节，Python分布式爬虫打造搜索引擎Scrapy精讲—Requests请求和Response响应介绍...-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

第三百四十六节，Python分布式爬虫打造搜索引擎Scrapy精讲—Requests请求和Response响应介绍...

阅读量：6832 次

发布时间：2019-06-26

本文共 2526 字，大约阅读时间需要 8 分钟。

第三百四十六节，Python分布式爬虫打造搜索引擎Scrapy精讲—Requests请求和Response响应介绍

Requests请求

Requests请求就是我们在爬虫文件写的Requests()方法，也就是提交一个请求地址，Requests请求是我们自定义的

Requests()方法提交一个请求

　　参数：

　　url= 字符串类型url地址

　　callback= 回调函数名称

　　method= 字符串类型请求方式，如果GET,POST

　　headers= 字典类型的，浏览器用户代理

　　cookies= 设置cookies

　　meta= 字典类型键值对，向回调函数直接传一个指定值

　　encoding= 设置网页编码

　　priority= 默认为0，如果设置的越高，越优先调度

　　dont_filter= 默认为False，如果设置为真，会过滤掉当前url

# -*- coding: utf-8 -*-import scrapyfrom scrapy.http import Request,FormRequestimport reclass PachSpider(scrapy.Spider):                            #定义爬虫类，必须继承scrapy.Spider    name = 'pach'                                           #设置爬虫名称    allowed_domains = ['www.luyin.org/']                    #爬取域名    # start_urls = ['']                                     #爬取网址,只适于不需要登录的请求，因为没法设置cookie等信息    header = {
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}  #设置浏览器用户代理    def start_requests(self):    #起始url函数，会替换start_urls        """第一次请求一下登录页面，设置开启cookie使其得到cookie，设置回调函数"""        return [Request(            url='http://www.luyin.org/',            headers=self.header,            meta={
   'cookiejar':1},       #开启Cookies记录，将Cookies传给回调函数            callback=self.parse        )]    def parse(self, response):        title = response.xpath('/html/head/title/text()').extract()        print(title)

Response响应

Response响应是由downloader返回的响应

Response响应参数

　　headers 返回响应头

　　status 返回状态吗

　　body 返回页面内容，字节类型

　　url 返回抓取url

# -*- coding: utf-8 -*-import scrapyfrom scrapy.http import Request,FormRequestimport reclass PachSpider(scrapy.Spider):                            #定义爬虫类，必须继承scrapy.Spider    name = 'pach'                                           #设置爬虫名称    allowed_domains = ['www.luyin.org/']                    #爬取域名    # start_urls = ['']                                     #爬取网址,只适于不需要登录的请求，因为没法设置cookie等信息    header = {
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}  #设置浏览器用户代理    def start_requests(self):    #起始url函数，会替换start_urls        """第一次请求一下登录页面，设置开启cookie使其得到cookie，设置回调函数"""        return [Request(            url='http://www.luyin.org/',            headers=self.header,            meta={
   'cookiejar':1},       #开启Cookies记录，将Cookies传给回调函数            callback=self.parse        )]    def parse(self, response):        title = response.xpath('/html/head/title/text()').extract()        print(title)        print(response.headers)        print(response.status)        # print(response.body)        print(response.url)

转载地址：http://umjkl.baihongyu.com/

你可能感兴趣的文章

canvas图形处理和进阶用法

1. 请问PHP里的ECHO是什么意思 ?请问PHP里的ECHO是什么意思？？？有什么作用？？？又应该怎么使用？？？...

ES6，数组遍历

如何把浏览器不信任的网址设置为可信任的网点

脚本加密http://www.datsi.fi.upm.es/~frosal/sources/

Cocos Studio is EOL'd

linux shell下16进制 “\uxxxx” unicode to UTF-8中文

【WPF】树形结构TreeView的用法（MVVM）

Go -- 读取文件内容

css样式布局中position的那些事儿

mysql慢查询日志相关参数

项目中如果管理前端文件CSS和JS

Nginx和PHP-FPM的启动、重启、停止脚本分享(转)

如何拷贝CMD命令行文本到粘贴板

Oracle数据库—— 存储过程与函数的创建

兼容iOS 10 资料整理笔记

逻辑回归原理小结

php 7.0 安装以及老版本php删除

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-31 15:04:45 当前IP: 3.138.123.215 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我