scrapy 递归只抓取了第一个页面疑问(10行代码)

scrapy 递归只抓取了第一个页面疑问(10行代码)

筱武穆 发布于 2021-11-30 字数 1209 浏览 762 回复 0

start_urls访问的是一个json接口,从里面分离出URL后,遍历所有URL,并输出当前Response的url。

但调试结果发现只输出了一个URL,是递归参数出现问题了吗?

#!/usr/bin/env python
# encoding: utf-8
import json
from scrapy.spider import BaseSpider
from scrapy.http import Request

class SoufangSpider(BaseSpider):
    name = 'soufang2'
    allowed_domains = ['jingyelidu.fang.com']
    start_urls = ['http://newhouse.gz.fang.com/house/s/?x1=111.168964&x2=115.446336&y1=21.921421&y2=24.307946&strDistrict=&strRoundStation=&railway=&strPurpose=&strPrice=&strHuxing=&saling=&strStartDate=&isyouhui=&strOrderBy=&strKeyword=&railway_station=&strComarea=&housetag=&strSort=mobileyh&a=ajaxXfMapSearch&city=gz&PageNo=1']

    def parse_detail(self, response):
        print response.url

    def parse(self, response):
        response_data = json.loads(response.body)
        #遍历所有URL并解析
        for houses in response_data['list']:
            yield Request(url=houses['houseurl'], callback=self.parse_detail)

如果你对这篇文章有疑问,欢迎到本站 社区 发帖提问或使用手Q扫描下方二维码加群参与讨论,获取更多帮助。

扫码加入群聊

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

目前还没有任何评论,快来抢沙发吧!