正则表达式-如何实现一个网页中提取URL的正则表达式

服务器管理 服务器管理 主题:1035 回复:2217

正则表达式-如何实现一个网页中提取URL的正则表达式

想挽留 发布于 2017-05-03 字数 265 浏览 976 回复 2

当然普通的URL可以这么写
html://w.w.w(/w)*
但是这样也无法排除 那些相对路径 之前用API 根据基础路径 +相对路径 整合出 绝对路径
不知道 各位能否想出URL的通式!!我上面的式子没有考虑到特殊字符 如@?之类的 但是在url中也是很常见的 !!

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

支持 Markdown 语法,需要帮助?

评论(2

灵芸 2017-08-20 2 楼

这个可以获取所有连接或者图片

(?is)s+(?:href|src)s=s(?:(?P<flag>['"])s(.?)s(?P=flag)|(.?)[s|>])

清晨说ぺ晚安 2017-05-17 1 楼

网页中提取你需要注意&等符号转义的问题,参考下例

^(http|https)://[a-zA-Z0-9-.]+.[a-zA-Z]{2,3}(:[a-zA-Z0-9])?/?([a-zA-Z0-9-._?,'/+&amp;%$#=~])[^.,)(s]$