Java-用JSOUP提取网页中的链接,遇到相对路径怎么处理?

服务器管理 服务器管理 主题:1035 回复:2217

Java-用JSOUP提取网页中的链接,遇到相对路径怎么处理?

归属感 发布于 2017-08-28 字数 426 浏览 1130 回复 1

今天采集 http://www.tbdress.com/Cheap-Wedding-Dresses-75/ 网站抓取回来的内容 中产品详情使用的是 相对路径 例如 /product/Classic-Ball-Gown-Strapless-Chapel-Train-Dashas-Wedding-Dress-With-Sash-8882450.html

我按照网上说的使用

String baseUrl = "http://www.tbdress.com";
Elements elements = Jsoup.parse(content,baseUrl).select("div#big div#right dl.garrery");

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

支持 Markdown 语法,需要帮助?

评论(1

甜柠檬 2017-10-22 1 楼

应该用Node类的absUrl方法。
首先,解析的时候用Jsoup.parse(html,baseUrl)方法
然后,这样:
Elements links = dd.select("a.imgc_a");
for(Element link : links){
String absLink = link.absUrl("href");
....
}

例如百度首页一个action是这样:<form action="/s">
首先指定baseUrl为http://www.baidu.com/
转为绝对地址为:http://www.baidu.com/s