Java-用JSOUP提取网页中的链接,遇到相对路径怎么处理?

Java-用JSOUP提取网页中的链接,遇到相对路径怎么处理?

归属感 发布于 2017-08-28 字数 426 浏览 1198 回复 1

今天采集 http://www.tbdress.com/Cheap-Wedding-Dresses-75/ 网站抓取回来的内容 中产品详情使用的是 相对路径 例如 /product/Classic-Ball-Gown-Strapless-Chapel-Train-Dashas-Wedding-Dress-With-Sash-8882450.html

我按照网上说的使用

String baseUrl = "http://www.tbdress.com";
Elements elements = Jsoup.parse(content,baseUrl).select("div#big div#right dl.garrery");

如果你对这篇文章有疑问,欢迎到本站 社区 发帖提问或使用手Q扫描下方二维码加群参与讨论,获取更多帮助。

扫码加入群聊

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

甜柠檬 2017-10-22 1 楼

应该用Node类的absUrl方法。
首先,解析的时候用Jsoup.parse(html,baseUrl)方法
然后,这样:
Elements links = dd.select("a.imgc_a");
for(Element link : links){
String absLink = link.absUrl("href");
....
}

例如百度首页一个action是这样:<form action="/s">
首先指定baseUrl为http://www.baidu.com/
转为绝对地址为:http://www.baidu.com/s