PHP-关于论坛过滤垃圾贴的方案?

WP主题讨论 WP主题讨论 主题:1013 回复:2239

PHP-关于论坛过滤垃圾贴的方案?

清晨说ぺ晚安 发布于 2017-01-06 字数 261 浏览 1119 回复 8

这个问题可能比较大,就是论坛一般都有很多的垃圾贴(不是灌水贴),比举个例子:(销售X X X X X X;销售#X#X#X#X#X#X)中间加空白字符,或者其它字符,类似这种变相的垃圾贴,如何才能杜绝他们发贴,由于论坛是先发后审的,所以很讨厌这种垃圾贴,大拿们给支支招呗..........

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

支持 Markdown 语法,需要帮助?

评论(8

浮生未歇 2017-09-25 8 楼

你可以检测 带有 “销” 或 “售” 等一些可能组成 特殊意义的关键字,直接先放到审核区,
这样至少会减轻点负担,其他的可以先发布再审核。
同时添加注册和发帖的限制,例如实名制之类的,如果存在恶意用户,可以封号一段时间。

偏爱自由 2017-09-22 7 楼

有个简单又有效的办法,新用户注册完,要想进到论坛,让他完成个任务,比如填写一个个人喜好什么的。

泛泛之交 2017-07-29 6 楼

论坛应该有过滤词库吧,我这里一般是这么个流程:首先过滤特殊字符,这里把所有特殊字符都过滤掉;然后检查过滤后的字符是否有非法词库里的敏感词,有禁止显示,没有的话才显示。

想挽留 2017-06-02 5 楼

以discuz论坛为例,后台的反灌水功能可以进行正则匹配,根据灌水内容写一个正则表达式,凡是匹配上的都不予显示。
或者你可以通过自己特有的资源限制有信用的用户发帖。假设用户登录你的论坛需要在统一的平台取得信息,那么就可以通过这个平台信息区分老用户和为灌水目的而注册的新用户,然后在论坛端设置发帖限制。
另外discuz和qq安全中心联手做了一个叫防水墙的插件,是基于云的过滤,它针对各种水贴和灌水机专门有一套收集和升级系统,可以提供很强大的过滤词库。遗憾的是只有最新版本DX2.5才可以用。

想挽留 2017-05-30 4 楼

垃圾过滤这种东西说简单也简单,说难也难,看你到什么级别了,如果只是过滤一些简单的东西那写一些简单的算法就可以完成,但是忘深里讲这个问题还真的是不好解决,只能说提供一个大概的思路,大体上还是分两种:
1.人工:人员审核的准确率什么的就不说了。
2.机器:收集字典,这是前期必须做的,写算法,计算为垃圾贴的概率,设定一个阀值,高于最大阀值的直接删除,低于最低阀值的发布,在最大阀值与最低阀值之间的进入人式审核,当然,这个阀值是看你怎么定了,在审核的同时审核人员可以快捷的添加新字典关键字,不断的壮大字典库,调节阀值,找到合适的。关键是算法,计算是垃圾的概率上,这个需要长期的高速才能提高准确率,当然,我只是提供一些我自己的看法,这些都是文字上的,如果你的帖子能发图,那就更麻烦了,这些我就不知道了

机器只能说是尽量降低审核成本,不可能完全替代人工

灵芸 2017-03-09 3 楼

对付这种垃圾贴,需要加入审核机制,审核机制分为2种:
1.人工审核:这种审核准确率最高,只要审核人员尽责,成功率会很高。但是缺点也很明显:效率低下,占用人工,开销较大。
2.加入黑字典过滤:设置黑词,通过开头字的算法去判断,如果算法合适,效率不是很大的瓶颈,加入空格什么的,可以通过过滤特殊字符来判断,这样就可以有效加大审核的成功率了,缺点就是:成功率不如人工

所以,推荐所有贴子发布的时候过黑字典审核,然后按比率去人工抽查来解决这个问题

晚风撩人 2017-02-22 2 楼

哈哈,论坛审核解决方案,我们已经写好了。
是半自动的。
论坛发帖无需审核,发帖的时候,立刻将帖子推送到 另一套审核中心,并且压入一个任务到队列,用于5分钟之后检查该帖子有否被处理过,如果未被处理过,则变成 审核未通过状态。
而审核中心则分两步:
第一步:关键词匹配,分两种处理情况,一是自动处理,例如“什邡”,自动给出处理结果“审核不通过”,一是手动处理,匹配到关键词,优先交给客服人员手动处理,例如“台湾小吃、钓鱼咯”等等关键词却非危害性词语。
第二步:客服人员手动处理未匹配的普通帖子。

处理结果会通知discuz端的php程序,并且终止之前压入的队列任务!

想挽留 2017-01-09 1 楼

本人提供一些观点:

  1. 所有信息在发布时候,该有一个系统审核,海量的信息不能完全依赖人工。比如最初可以用正则设定一些关键字、或者垃圾信息个格式。这个审核系统可以给帖子初步评级,如:直接禁止发布,需要人工再次审核,或者可以发布。
  2. 对于通过了审核系统的信息,再用人工去审核,直接禁止的信息就不用管了,系统提示需要审核的信息可以重点审核,系统放行的信息也当然最好也要人工简单审核一下。
  3. 这个审核系统越完善,人工的工作就会越简单,杜绝他们发帖很难,还是要从论坛本身的功能做起,分析垃圾信息的一般规律,让系统去屏蔽它们才是目前最好的方法吧

本人的工作中有一部分也是跟垃圾信息做斗争,一起加油吧,天涯兄!

非常赞同3楼,人工审核,系统审核是相辅相成的,不能只采用其中一种,系统审核减轻了人工的工作量,人工审核又保证了审核的质量,所以花些精力研究反垃圾系统是很值得的