scrapy 递归只抓取了第一个页面疑问(10行代码)
start_urls访问的是一个json接口,从里面分离出URL后,遍历所有URL,并输出当前Response的url。
但调试结果发现只输出了一个URL,是递归参数出现问题了吗?
#!/usr/bin/env python # encoding: utf-8 import json from scrapy.spider import BaseSpider from scrapy.http import Request class SoufangSpider(BaseSpider): name = 'soufang2' allowed_domains = ['jingyelidu.fang.com'] start_urls = ['http://newhouse.gz.fang.com/house/s/?x1=111.168964&x2=115.446336&y1=21.921421&y2=24.307946&strDistrict=&strRoundStation=&railway=&strPurpose=&strPrice=&strHuxing=&saling=&strStartDate=&isyouhui=&strOrderBy=&strKeyword=&railway_station=&strComarea=&housetag=&strSort=mobileyh&a=ajaxXfMapSearch&city=gz&PageNo=1'] def parse_detail(self, response): print response.url def parse(self, response): response_data = json.loads(response.body) #遍历所有URL并解析 for houses in response_data['list']: yield Request(url=houses['houseurl'], callback=self.parse_detail)
如果你对这篇文章有疑问,欢迎到本站 社区 发帖提问或使用手Q扫描下方二维码加群参与讨论,获取更多帮助。


目前还没有任何评论,快来抢沙发吧!
发布评论
需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。