Java-java中如何抓取网页中动态加载的内容

小组聊天灌水 小组聊天灌水 主题:993 回复:2175

Java-java中如何抓取网页中动态加载的内容

偏爱自由 发布于 2017-03-28 字数 103 浏览 1323 回复 5

用java抓取网页时,会遇到有些网页的内容使用javascript动态加载的,这样应该怎样获取所需要的内容呢?

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

支持 Markdown 语法,需要帮助?

评论(5

甜柠檬 2017-09-25 5 楼

每一个动态加载都是有他相关的url或者参数的,如果你能找到的话,直接模拟请求他那个url就能得到内容了

灵芸 2017-08-21 4 楼

这个我觉得不太好抓取,除非你把他的javascript理解清楚了。然后你在模仿。上面也说了,有请求url的就模拟,没有的话,你就只能看代码了。这个不太好抓取

瑾兮 2017-07-31 3 楼

理论上是可以,搜索引擎之所以没有这样做估计是性能的原因。如果你对性能要求不高的话,可以考虑下面的方案:
1、抓取网页的内容
2、调用Javascript引擎来渲染网页
3、解析渲染后的内容,建立索引

清晨说ぺ晚安 2017-06-30 2 楼

最近看了一些deep web方面研究,这个其实也算是deep web内容,不能传统搜索引擎爬取到,因为传统爬虫只能按照链接进行爬行。Deep Web中获取这样的信息有两种方式:
1.Google’s Deep-Web Crawl中提到的把这样的内容封装成get请求url,这样就可以像普通链接一样交给爬虫进行爬取和索引,当然关键是如何自动生成这些url,尽量用少的url来覆盖尽可能多的内容。
2.数据集成方式。通过在线提交表单或者请求的方式,如果是表单可以直接提交表单,若是其他js异步请求则需要模拟脚本调用,来触发请求,并对返回结果进行解析。
java中htmlunit包可以处理表单请求和模拟js。

甜柠檬 2017-06-03 1 楼

htmlunit可以,解析Ajax网站的框架.