Linux-两条sed命令删除所有的HTML代码的区别

Linux-两条sed命令删除所有的HTML代码的区别

灵芸 发布于 2017-02-13 字数 420 浏览 1047 回复 4
[root@CentOS5 ~]# cat 121.txt 
<HTML>
<HEAD>
<TITLE> New Document </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
</HEAD>

<BODY>
This is boby!
</BODY>
</HTML>

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

想挽留 2017-08-18 4 楼

 sed -e 's/<[^<]*.[>$]//g' -e '/^s*$/d' 121.txt

归属感 2017-06-03 3 楼

这个命令可以实现上述功能:

 sed 's/<[^<]*.[>$]//g;/^$/d' 121.txt > file.txt

清晨说ぺ晚安 2017-05-21 2 楼

sed 's/<[^<].[>$]//g' a.log |sed '/^[ t]$/d'
sed 's/<[^<].[>$]//g;/^[ t]$/d' a.log
sed 's/[^<].[>$]//g;s@<@@g' a.log|sed '/^[ t]$/d'
当然可以哇
区别就是``第一个以<开始匹配`
第二个就是非<开头的数据开始匹配
给个awk的
awk -vRS="<[^<>]*>" 'NF=NF{printf $0}'

泛泛之交 2017-04-24 1 楼

加上删除前后空格,还有删除空行

 sed -e 's/<[^<]*.[>$]//g' -e 's/^[ t]*//g' -e 's/[ t]*$//g' -e /^$/d 121.txt