文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
7.5 本章小结及要求
本章介绍了动态网页的含义并简单讲解了爬取动态网页的方法,用实例演示了 URL 不变动态网页的爬取技巧。本章还通过爬取新浪微博这个例子,向读者展示了使用 Selenium 配合 Chrome 浏览器编写爬虫的技巧,读者应该学会使用 driver 对象查找元素、提取文本和属性的方法。当然 driver 对象还可以使用 id 或 name 等属性定位网页元素,读者可以查看 Python Selenium 文档。另外,在一些情况下,还可以使用 Selenium 驱动 Chrome 浏览器登录网站,然后通过 driver 对象的 get_cookies 方法获取登录后的 Cookies,再使用 Requests 完成后续的爬取过程,这同样能极大地提高爬取深层网页的效率。
本章要求爬取 1000 个链家经纪人的成交数据。这是一个非常有挑战性和趣味性的爬取作业,对于链家网站的分析,读者可以参考 14.2 节,特别是其中对于成交记录翻页的分析,值得读者借鉴,然后使用 Requests 完成对链家经纪人成交记录的爬取。14.2 节会演示使用 Scrapy 框架完成爬取。读者在爬取过程中要注意两点:一是要爬取链家移动页面,二是要防止爬虫被网页反爬虫禁止。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论