spiderman想抓取分页页面列表的信息,而不是进入每个列表后页面的具体信息,怎么配置xml?(我只要列表中的主要信息,没必要进入页面的的具体信息)

spiderman想抓取分页页面列表的信息,而不是进入每个列表后页面的具体信息,怎么配置xml?(我只要列表中的主要信息,没必要进入页面的的具体信息)

归途 发布于 2021-11-26 字数 275 浏览 632 回复 2

@自风 你好,想跟你请教个问题:

spiderman想抓取分页页面列表的信息,而不是进入每个列表后页面的具体信息,怎么配置xml?(我只要列表中的主要信息,没必要进入页面的的具体信息)

如果你对这篇文章有疑问,欢迎到本站 社区 发帖提问或使用手Q扫描下方二维码加群参与讨论,获取更多帮助。

扫码加入群聊

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

檐上三寸雪 2021-11-30 2 楼

sample文件夹里面有好几个类似你的需求的xml配置文件,你去看看

别再吹冷风 2021-11-27 1 楼

这个简单,

1. 把分页页面配置成目标页面的规则

2. <model isArray="1" xpath="" > 这样可以支持一个列表页面抓取N个模型数据