Spiderman爬虫

Spiderman爬虫

吃颗糖壮壮胆 发布于 2021-11-29 字数 339 浏览 780 回复 3

@自风 你好,想跟你请教个问题:我有这么一个场景 我要爬去一个列表页面  有分页的(下一页),列表里面有个详情页面 我要的数据是(列表页面中的A字段 和详情页面中的数据B字段)组合而成的,这种场景Spiderman好配置么?还是需要自己实现抓取规则?

如果你对这篇文章有疑问,欢迎到本站 社区 发帖提问或使用手Q扫描下方二维码加群参与讨论,获取更多帮助。

扫码加入群聊

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

离不开的别离 2021-12-01 3 楼

请参考http://my.oschina.net/laiweiwei/blog/100866 和 sample项目里的各种xml

梦中楼上月下 2021-12-01 2 楼

你好,我这边只想要A字段,xml里面应该怎么配置,谢谢.刚研究这个.求大神赐教.

不再见 2021-11-29 1 楼

暂时配置两个目标target来完成这个事情,每个目标得到的结果你需要在监听器里写代码去合并,举个栗子:

目标一: 抓取列表中的A字段,先用URL地址查询数据库是否已存在B字段数据,有的话更新,无的话插入数据,注意URL地址也要当成一个字段保存进去

目标二: 抓取详情中的B字段,先用URL地址查询数据库是否已存在A字段数据,有的话更新,无的话插入一条记录,注意URL地址也要放进去