输入法畅想

前段时间结识了两位创业做输入法的朋友,花了一个下午和他们畅聊了下输入法,也开拓了下自己的思路,于是写此博文以记之。

目前中国PC市场的输入法基本上已经被搜狗垄断了,剩下的就是QQ,谷歌,百度等几家大公司的输入法,当然也有拼音加加这种老牌输入法的死忠粉丝,所以可以说PC市场的输入法大局已定,没有什么机会了。而眼下手机输入法还是一片蓝海,虽然搜狗、百度、QQ等手机输入法都在攻城略地,但是仍然是大有可为的一片市场。

在国内输入法之外,国外输入法是一个更大的市场,在PC时代,国外拉丁文用户可以不需要输入法,直接在键盘上打字即可,但是在智能机时代,没有了键盘,即使输入英文也得用一款输入法软件才行。所以国外手机输入法市场是一个比国内输入法市场要大好几倍的市场。

现在无论是在手机输入法市场上风生水起的触宝输入法,还是能够跨平台的RIME输入法,他们都有一个共同的特点,就是同一款输入法软件,只需要下载不同的词库,就可以实现不同的输入法。也就是说输入法软件本身只是做了一个通用的框架,通过不同的配置文件和核心词库文件来实现不同语言,不同输入方式。这是一个发展趋势,以后输入法可能都是这样被统一。

在输入方式上,中文的输入最常见的就是拼音了,其次时五笔,然后就是些乱七八糟的各种国人发明的输入方式。在台湾流行的是注音输入法和仓颉输入法,其实就是对应大陆的拼音和五笔。英文或者说拉丁语系的输入方式就简单多了,常见的就是键盘上直接输入,还有就是现在比较流行的滑动输入Swype。之前看了吴军老师的《数学之美》,里面也提到了输入法,对于中文而言,拼音输入才是更接近人本性的一种输入方式,虽然现在的拼音输入法重码率高,导致输入效率还不够高,但从长远来看,拼音输入法必将打败五笔输入法。其实现在搜狗拼音已经做得很不错了,整句整句的输入,使得重码的几率低了很多。

说到搜狗拼音输入法,这个目前大陆输入法市场的老大,那么就必须要说到搜狗输入法当年做得很成功的词库。输入法的词库分为三部分:

  • 核心词库
  • 分类词库
  • 用户词库

核心词库是一个语言的核心,定义了最常用的词汇,核心词库的好坏直接决定了输入法的好坏。前面提到输入法框架,只需要配上核心词库和输入设置,就可以变成一个全新的输入法。核心词库是对一个语言通用的,还记得当年谷歌输入法出来的时候,就被搜狗告了,就是因为谷歌输入法盗用了搜狗输入法的核心词库。

分类词库(细胞词库)我不知道是不是搜狗输入法的首创,但搜狗输入法是做得最成功的。分类词库是对某个特定人群才使用得到的词库,默认情况下用户是没有分类词库的,用户可以根据自己的情况下载对应的分类词库。比如笔者是四川人,搞计算机的,所以就会下载“计算机词汇”,“四川地名”等分类词库。因为分类词库是针对特定人群的,所以对于一个北京的销售人员来说,就没必要下载笔者的这些分类词库。搜狗成功的将分类词库的创建使用众包的方式交给用户自己来完成,使得分类词库蓬勃发展,现在已经有27K+个词库了。

用户词库是针对用户个人而创建的词汇列表,该词库只对用户个人有用,对其他人来说,可能没有任何意义。比如笔者在写Email时经常会输入朋友的姓名,绰号等,这些都是笔者的好朋友的姓名,绰号,不会存在于核心词库和细胞词库中,创建这样的用户词库对笔者下次输入时非常有帮助,但是对于其他人来说,根本永远不会输入这些词汇,或者对别人来说,这根本就不是词汇。搜狗很好的将用户输入过的这些用户词库记录下来,然后同步到用户账号的服务器数据中,这样既方便了用户使用多台电脑时词库同步的问题,也避免了重装系统导致的数据丢失的问题。

凭借着对这三种词库的特点和其他优化,使得搜狗迅速占领了市场,接下来搜狗输入法就发展其他各种花哨功能去了。毕竟当年大家的输入法还是只能做到60分的时候,搜狗输入法能够做到90分,那就是极大的成功,现在大家都能做到90分了,接下来搜狗再大量投入也只能把90分做到95分,对普通用户来说,改善不明显,所以只能靠不断的扩展新的功能来进一步扩大用户群。

输入法的竞争其实就是词库的竞争,毕竟现在输入法框架已经很成熟,软件上的差异越来越小,大家都能做到很高的正确率。核心词库是由专家仔细精挑细选出来的,适用与每个人;分类词库是通过众包的方式,由各行各业的热心人士统计筛选出来的,网上都可免费下载;个人词库是由用户在使用输入法的过程中自己创造出来的,具有一定的用户粘性,使得用户不愿更换其他输入法。对于分类词库和个人词库,“深蓝词库转换”都给出了很好的解决方案,帮助用户从一种输入法切换成另一种输入法。比如之前一直用搜狗输入法,现在想换成谷歌输入法,但是又觊觎搜狗输入法的细胞词库,那么可以用深蓝词库转换将搜狗细胞词库转换成谷歌拼音词库,导入谷歌拼音。对于个人词库,也是如此,只需要在搜狗输入法中将个人词库备份,然后使用深蓝词库转换将备份文件转换成谷歌拼音的词库导入即可。

虽然深蓝词库转换解决了输入法切换的问题,但是还有一个摆在所有输入法面前的问题,用户词库从哪里来?必须让用户在第一次输入时一个字一个字的选吗?如果我之前用的输入法没有设置账号同步到服务器,或者用户词库丢失了,难道真的必须让用户再痛苦一会,一个字一个字的重新选。

用户之前已经进行了大量输入,比如用户的QQ聊天记录、Email,或者写博客,QQ空间,写微博、说说、心情、微信等,更或者用户发表过很多论文,写过书、网络小说等;这些都是构建用户词库的素材,如果我们能够分析这些素材,那么就可以构建一个强大的用户词库,使得用户的输入法更加个性化,输入效率自然更高。

收集这些用户词库的素材就是一个比较麻烦的事情,毕竟用户输入的地方太多了,然后就是进行解析,这需要对汉语进行分词,这是个麻烦的事情,最后就是将解析后的语料进行处理,生成用户词库。我想下一个项目能够做做这一块,毕竟这东西对很多人来说,是个好东西!

时间: 2024-12-28 07:59:34

输入法畅想的相关文章

百度日文输入法的使用帮助

  百度日语输入法怎么使用 电脑右下角,点右键设置书入法,添加输入语言-日语键盘.确定. 输入时可以使用"alt+shift"进行不同语言键盘的切换,然后再用"alt+~(tab 上面的)"切换到平假名输入模式,输入片假名按F7键即可. 百度日语输入法设置 控制面板--->区域和语言选项----->语言------>详细信息------>选"添加"--->在里面选"日文"就可以了

百度日语输入法的基本特征

  1.存储域网络,可转换话题关键字 2.文字与表情符号类型,转换表达 3.潜在能见度转换,预测学习功能 4.输入法光标皮肤色可以自由替换 5.百度日语输入法从菜单栏刷图标 6.3种输入习惯方式,联想输入功能 7.增加常用截图功能,方便快速截图 百度日文输入法卡通代言人"爱美"资料为了攻下日本市场,各大互联网运营商纷纷针对日本国情和文化特色出招.谷歌Chrome携手当红虚拟歌手初音未来推出了新广告,而我国的百度日语输入法则采取了将萌化进行到底的态度,于近日推出了一位萌化虚拟卡通人物&q

科大讯飞年度发布会:讯飞超脑摘取认知智能桂冠,输入法领衔AI+ (刘庆峰、胡郁演讲实录)

纵观整场发布会,可以看到,讯飞以语音为切入口的.从感知智能到认知智能的人工智能革命正在稳步推进:战略上,讯飞专注人工智能的决心非常坚定,认为本次人工智能的爆发是真正的行业浪潮,其中蕴含巨大的机会:技术研发上,讯飞利用多年在人工智能上积累,拿下多项国际比赛的冠军,不仅语音,还有知识图谱.自然语言理解等:产品应用上,科大讯飞在车载和家居上扩展布局,推出相关产品.行业竞争上,讯飞人工智能生态建设取得初步进展,多个领域的市场与技术上都有布局,与3000多家机器人公司达成合作,拥有20万开发者.市场上,在

QQ输入法怎么输入特殊符号?

  QQ输入法怎么输入特殊符号?          方法/步骤 1.在电脑右下角的输入法工具栏中点击扳手. QQ输入法 2.选择"符号". QQ输入法 3.然后你就打开了一个符号窗口,根据自己的喜好输入. 4.比如我需要输入日文,切换到"日文平假名",然后找到自己需要输入的.a'a'a QQ输入法 5.同时我们还可以输入颜文字,点击上方的"字符表情"即可. QQ输入法 6.通过以上方法是不是很简单呢? QQ技巧 输入法教程 影视制作教程

必应Bing输入法打出特殊符号的方法

  在今天的必应Bing输入法的使用教程中,我们将给大家介绍的是:使用必应Bing输入法打出特殊符号的方法.主要是打出,而不是在特殊符号栏里选择.比如说,您使用必应Bing输入法打出"五角星,就可能出现一个"★"选项.那么,具体要怎么设置呢?一起来看看今天的必应Bing输入法的使用教程吧! 第一步:我们先在必应Bing输入法状态栏上右键单击选择"设置属性"; 第二步:选择高级,这样还有一些其他的属性大家可以看下; 第三步:在"高级"中,

Android输入法框的梳理

原文:http://blog.csdn.net/a345017062/article/details/6121147 /frameworks/base/services/java/InputMethodManagerService.java 这是整个系统当中,一切与输入法有关的地方的总控制中心.它通过管理下面三个模块来实现系统的输入法框架. 1./frameworks/base/services/java/WindowManagerService 负责显示输入法,接收用户事件. 2./frame

QQ五笔输入法怎样调整候选词的个数

  QQ五笔输入法调整候选词的个数的方法如下: 可以通过在状态栏上面右键菜单里的(设置)→(基本设置)→(其它设置)来修改,选择范围是2-9个.输入法默认的是5个候选词,五笔的重码率本身很低,推荐选用默认的5个候选词.

酷灵输入法新手使用指南

酷灵http://www.aliyun.com/zixun/aggregation/3619.html">输入法软件是一个支持五笔.拼音.英文混合输入的全能输入法.拥有多种输入模式,独特的创新自我学习能力,结合用户IE的浏览习惯,把大量用户关注的内容加入到词库中.突破五笔的局限性,研发出五笔组词.五笔短句的功能,不再限制用户在输入编码时的长度.同时具备用户个性特征的输入法,用户即便是在某一输入模式下,可以对多种输入习惯进行配置.产品已获得国家知识产权保护,并拥有多项技术发明专利. 软件下载

3.Kali 1.0 / 2.0 安装中文输入法(谷歌pinyin + 其他)

1.kali默认是没有中午输入法的,需要自己安装一下 2.首先我们先获取root权限 dnt@HackerKali:~$ su 密码: 3.安装中文输入法(apt-get 指令不会的同学可以学习一下基础指令哦) root@HackerKali:/home/dnt# apt-get install fcitx 4.安装谷歌输入法 root@HackerKali:/home/dnt# apt-get install fcitx-googlepinyin 5.安装完成后没有什么变化,重启一下 root