正则表达式-如何实现一个网页中提取URL的正则表达式

正则表达式-如何实现一个网页中提取URL的正则表达式

想挽留 发布于 2017-05-03 字数 265 浏览 1023 回复 2

当然普通的URL可以这么写
html://w.w.w(/w)*
但是这样也无法排除 那些相对路径 之前用API 根据基础路径 +相对路径 整合出 绝对路径
不知道 各位能否想出URL的通式!!我上面的式子没有考虑到特殊字符 如@?之类的 但是在url中也是很常见的 !!

如果你对这篇文章有疑问,欢迎到本站 社区 发帖提问或使用手Q扫描下方二维码加群参与讨论,获取更多帮助。

扫码加入群聊

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

灵芸 2017-08-20 2 楼

这个可以获取所有连接或者图片

(?is)s+(?:href|src)s*=s*(?:(?P<flag>['"])s*(.*?)s*(?P=flag)|(.*?)[s|>])

清晨说ぺ晚安 2017-05-17 1 楼

网页中提取你需要注意&等符号转义的问题,参考下例

^(http|https)://[a-zA-Z0-9-.]+.[a-zA-Z]{2,3}(:[a-zA-Z0-9]*)?/?([a-zA-Z0-9-._?,'/\+&amp;%$#=~])*[^.,)(s]$