下一步,用拼音搜索屏蔽词?

最近,国外的Twitter、国内的饭否相继遭墙,与此相似的一些网站也都组织调整。

比如“做啥网”表态准备上线搜索屏蔽词功能,就是类似 baidu 和 g.cn 的“据当地法律法规和政策,部分搜索结果未予显示。”

这我让回忆起以前逛论坛时看的帖子,很多论坛(例如DVBBS)都自带屏蔽敏感词功能,如果帖子中有词组与后台敏感词数据库匹配得上,就用‘*’来代替。我尤记得周杰伦的《听妈妈的话》被系统自动改成《听妈**话》。

但他们也提到:现在的网友也很厉害,会运用谐音啊或者自己创造一些词语,婉转表达敏感信息。理论上需要每条信息人工审核后才能发布,不过限于人力,目前“做啥”还没有准备这样做。

这我在想起很多年前用WinTC时里面自带了一个点阵字模工具,除了能将一个汉字转换成点阵字模,还会用这个汉字的拼音来做数组名。当时很好奇,就去找了一点相关了资料,才知道像GBK、Unicode等编码本身就是和拼音相关的。撇开这些不算,即使直接对65536个汉字建立映射表,假设汉字2个字节,拼音最长的zhuang算6个字节,整个映射表也不到1MB的空间。

所以,为相应有关部门的号召,也许不久的将来论坛、微博等会采用拼音来搜索敏感词汇的工具来。到时候“草泥马”此类神兽通通都得贴上和谐标签。



版权声明
本博客所有的原创文章,作者皆保留版权。转载必须包含本声明,保持本文完整,并以超链接形式注明作者“redraiment”和主站点上的本文原始地址



我的邮箱,欢迎来信(redraiment@gmail.com)
我的玩具箱(子清行
我的百度空间(梦婷轩

时间: 2024-10-29 07:18:26

下一步,用拼音搜索屏蔽词?的相关文章

网站刷百度搜索关健词的几点看法

这个世界,最不缺少的,可能就是那些没有事情的人,却又整天想着要去搞一点破坏的.部落的网站,在这一段时间,可以说是经历好几轮的各种攻击,今天又碰到了一个在百度上刷搜索流量的,具体说来就是通过从百度上搜索某个关健词,然后进入相应的站点,让人难以解决的是,这个刷流量的朋友,不知用的什么软件工具,居然是自动换IP的. 部落很想将这个玩意直接屏蔽掉,但估计会误伤不少的真实流量,不得已只得顺其自然了. 前几天,部落刚介绍的lnmp笔记:nginx屏蔽或禁止指定来源网站的链接访问自己的网站一文中,介绍了一个指

java实现屏蔽词功能_java

经常会看到贴吧里面屏蔽各种用户的发帖内容,当时就想这个该如何去实现.自己当时想过用字符串去替代的方式(replaceAll)去实现,但是这种效率又非常低,也不能保证最长匹配,这就是自己当时最初的想法.最近自己做的一个项目中,需要对一些内容做屏蔽,自己又对这个问题做了一次分析,最终形成下面的代码. /** *@Description: 屏蔽词功能实现 */ package cn.yicha.novel.search.util; import java.io.BufferedReader; impo

看搜索长尾词如何给网站带来不断增长的大流量

要说国内最成功的社会化购物分享网站,当然是属于蘑菇街和美丽说,在这个夹缝中,依然有不少新站不断诞生又倒下,但是有一个叫"翻东西"的分享站,却在快速的成长. 我是在2012年中旬知道这个站的,在我的印象中,短短的半年时间,它的PR上升到了5,百度权重更是达到了7.这么一个不被大家熟悉的网站,是如何在这么短的时间内成长这么快的?我们来比较下翻东西和蘑菇街的权重截图,应该能发现一些原因.   蘑菇街前三个词,都是首页跟"蘑菇"相关的网站品牌词,搜索量相加是75358,而翻

win8.1系统让360安全浏览器搜索栏不显示搜索热词的方法

  win8.1系统让360安全浏览器搜索栏不显示搜索热词的方法         具体步骤: 1.点击右上角设置按钮(三横),点击"选项/设置"; 2.在基本设置右侧将"启用搜索栏的热搜词推荐功能"前的勾去掉 即可. 根据上述简单设置之后,win8.1系统可以让360安全浏览器搜索栏不显示搜索热词了,如果想要显示的点击勾选就可以了,简单实用的小技巧,希望可以帮助到大家.

Lucene5学习之拼音搜索

     今天来说说拼音检索,这个功能其实还是用来提升用户体验的,别的不说,最起码避免了用户切换输入法,如果能支持中文汉语拼音简拼,那用户搜索时输入的字符更简便了,用户输入次数少了就是为了给用户使用时带来便利.来看看一些拼音搜索的经典案例:             看了上面几张图的功能演示,我想大家也应该知道了拼音检索的作用以及为什么要使用拼音检索了.那接下来就来说说如何实现:      首先我们我们需要把分词器分出来的中文词语转换为汉语拼音,Java中汉字转拼音可以使用pinyin4j这个类库

代码-使用httpclient代理ip然后通过百度搜索一个词进入一个页面

问题描述 使用httpclient代理ip然后通过百度搜索一个词进入一个页面 就是利用代理ip来模拟百度搜索,然后返回这个页面然后记录!这个可以实现吗?!具体代码是什么啊!? 还有代码的意义是什么?

Google 搜索屏蔽海内网 HaiNei.com

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 正在看新浪做的 Google 十年 专题,打开海内网看到有人惊爆 Google 搜索屏蔽了海内,我去测试了一下,果然如此.如果说海内(以及海内网)这个关键词与海内网Hainei.com 并无联系,那说不过去,到其他搜索引擎测试一下就知道结果了.但 Google 搜索的客观公正原则虽然是建立在自己的技术基础之上,但一直以来都还不错,虽然同时谷歌

“西红柿”已然成为网络搜索热词

7月15日晚,京东商城CEO刘强东和其下属女总监几乎同一时间在微博上各发布一张小西红柿的照片,根据网友观察,两张图片上的西红柿应该是同一个,进而引发网友猜测两人的关系亲密.虽然二人很快都将微博删除,但依旧引来网友的热议和调侃,淘宝.当当等网站也跟着"起哄". "西红柿门"爆发后,刘强东第二天一早在微博发牢骚"八卦,八卦,微博很八卦!"不久后又在微博说自己"躺着也中枪". "西红柿门"如此火热并不仅仅因为与C

互动百科告百度垄断索赔100万:称遭其搜索屏蔽

认为自己的网站在百度搜索中被屏蔽,"http://www.aliyun.com/zixun/aggregation/22639.html">互动百科"将北京百度网讯科技有限公司(简称百度)诉至一中院,要求百度停止滥用市场支配地位的行为,同时赔偿各项损失100万. 昨日上午,一中院公开审理此案. 原告称热词遭"降序" "互动百科"网站的经营者.原告互动在线(北京)科技有限公司认为,被告百度的垄断行为,体现在其滥用了在国内搜索引擎服务