Java-采集的时候 怎么模拟是浏览器访问的呢? 要加哪些头信息呢

Java-采集的时候 怎么模拟是浏览器访问的呢? 要加哪些头信息呢

灵芸 发布于 2017-03-25 字数 192 浏览 1262 回复 3

采集的时候 怎么模拟是浏览器访问的呢? 要加哪些头信息呢

我当前使用的是 java类库 commons-httpclient-3.0.1.jar

这些头信息应该是通用的,所以请大家给出 任意语言版本的demo 都行

如果你对这篇文章有疑问,欢迎到本站 社区 发帖提问或使用手Q扫描下方二维码加群参与讨论,获取更多帮助。

扫码加入群聊

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

归属感 2017-07-12 3 楼

User-Agent,Accept、Accept-language,可选:Accept-encoding、Referer、Cookie

泛泛之交 2017-05-13 2 楼

一般添加referer和UA的信息就可以了。例如下面代码:

final HttpClient httpClient = new HttpClient();
final GetMethod getMethod = new GetMethod(url);
getMethod.getParams().setParameter(HttpMethodParams.HTTP_CONTENT_CHARSET, charset);
getMethod.getParams().setSoTimeout(5000);
getMethod.addRequestHeader("Referer", "http://www.baidu.com");
getMethod.addRequestHeader("User-Agent",
"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.52 Safari/536.5");

灵芸 2017-05-05 1 楼

User-Agent:客户端厂家和版本

Accept:客户端可识别的内容类型列表
Accept-language:定义客户端乐于接受的自然语言列表

可选:
Accept-encoding:定义客户端可以理解的编码机制
Referer:到达当前页面的上一个页面的URL
Cookie:cookie信息

更具体的信息可以参考:http://www.51testing.com/?uid-231393-action-viewspace-itemid-187485