算法-政治敏感信息识别技术思想

前端开发 前端开发 主题:1148 回复:2395

算法-政治敏感信息识别技术思想

偏爱自由 发布于 2017-08-24 字数 93 浏览 1175 回复 4

我知道可以采用多模式匹配的方式,但想了解下政治敏感信息识别是否还有其他技术手段和思想?

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

支持 Markdown 语法,需要帮助?

评论(4

瑾兮 2017-09-21 4 楼

采用压缩trie树的办法进行,
例如,中文切词(几十万词),就是用的这个算法。
具体来说,建议用double array压缩trie tree。性能、内存使用综合素质比较高。

虐人心 2017-09-03 3 楼

这种黑词的匹配算法有很多,最简单的比如简单匹配:用穷举法就可以实现,但是效率较低,在数据量很小的情况下用用还凑活。
另外还有最大匹配算法:把需要比较的字符串“切片”,然后一个片一个片去比较,如果没有匹配成功就直接忽略掉。

清晨说ぺ晚安 2017-08-30 2 楼

建立一个库。并且库是可以增长的,从拦截到的信息中去截取敏感词出来,再添加记录。用本身来拦截,再增长本身。
个人想法...

浮生未歇 2017-08-24 1 楼

可以在多模式匹配的基础上,通过以下两种手段进行判定:1)定义规则集来进行判定;2)对于不能用规则集进行判定的,采用已被广泛应用并被证实可行有效的贝叶斯算法进行判定