Jsoup 功能强大的 JavaHTML 解析器 - 文章教程

Jsoup 功能强大的 JavaHTML 解析器

发布于 2019-10-24 字数 1820 浏览 1535 评论 0

Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

Jsoup 功能强大的 JavaHTML 解析器

Jsoup 遵循WHATWG HTML5规范,解析某些HTML带DOM中,和浏览器做相同的事情。

Jsoup特点

  • 可以解析通过URL、文件或字符串获取的HTML
  • 发现和提取数据,使用DOM遍历或CSS选择器
  • 操作HTML元素、属性、文本
  • 干净的用户提交的内容对安全的白名单,防止XSS攻击
  • 整洁的HTML输出

Jsoup被设计来兼容处理各种HTML代码,这意味着即使你的HTML代码不是完整的结构、或者是包含无效的标签,Jsoup都可以很好的解析,从最原始的数据作为来源,生成合适的DOM文档树。

Jsoup运行与Java 1.5及以上的版本。

在线示例

那维基百科的网页作为示例源数据,从新闻中的部分到一个列表中的元素选择标题:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

开放源代码

Jsoup是一个开放源代码的项目,遵循 MIT 协议开放,源代码托管在 GitHub

Jsoup 良好的可扩展性API 设计,你可以通过选择器的定义来开发出非常强大的HTML 解析功能。再加上jsoup 项目本身的开发也非常活跃,因此如果你正在使用Java ,需要对HTML 进行处理,不妨试试。

相关链接

如果你对这篇文章有疑问,欢迎到本站 社区 发帖提问或使用手Q扫描下方二维码加群参与讨论,获取更多帮助。

扫码加入群聊

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

目前还没有任何评论,快来抢沙发吧!

关于作者

JSmiles

生命进入颠沛而奔忙的本质状态,并将以不断告别和相遇的陈旧方式继续下去。

2583 文章
29 评论
84935 人气
更多

推荐作者

清欢

文章 1 评论 0

贱贱哒

文章 3 评论 0

悸初

文章 2 评论 0

西瓜杏

文章 0 评论 0

各自安好

文章 0 评论 0