问题的提出
申请过那么多的微博,数申请">网易微博的动机最不纯,因为它的字数限制不是传说中的140字,而是163个字。当年觉得很可爱,于是就注册了,之后再也没登录过。今天在人人网转发状态,提示我超过140字了,突然就好奇大家都在凑什么热闹,为什么除了网易微博,都限制140个字呢?
当然也已经有过关于这个问题的解释,比如人民网上这位“并没有twitter方面做过交流”的专家,或者这位新浪微博的副主编(原来新浪微博是有编辑的啊),还有各种论坛、百度知道提问等等,都不足以让人信服,考据癖没能得到满足,只好自己来考据一番。
twitter说
We like to keep it short and sweet! It also just so happens that 140 characters is the perfect length for sending status updates via text message. The standard text message length in most places is 160 characters per message. We reserve 20 characters for people’s names, and the other 140 are all yours! (via Twitter FAQ)
也就是说,twitter希望微博首先能做到“微”,言简意赅,其次这样的限制是考虑到短信更新状态的字数限制,本身是160字母的限制,再留20字给id长度,剩余140字母留给用户发挥。
此外,YAHOO!的meme(2,000字)和Google的Buzz(没有限制)等对字数都没有短而精的要求,在这个层面上,算不上微博,只能算轻量级博客,暂不相提并论。
国内微博为什么也限制140字
如果按照160字是短信长度限制的说法,那么国内短信是70字,为什么国内的各微博不限制在70字,而是140字呢?*浪副总编说,因为这刚好是两 条短信的长度。看上去挺合理的解释,可还是不禁追问,为什么一定要两条?会不会像传说中所有国内微博地址开头的那个“t.”代表twitter一样,表明 是对twitter的一种“借鉴”?还是说这个140已经成为twitter建立的隐含的行业标准?中文的字数限制从已经逝去的“吃饭了吗 (update:它已经复活了)”开始把140字沿用至今,成为一个不成文的规定,没什么特别的就不需要改,倒是网易在这一点上走了个歪路。
当然不只我一个纠结过这个问题,这篇关于中文微博140字的博文分析原因可能是“一方面,70个字符承载的信息量确实少了点;另一方面,在输入中文的时候我们也会输入英文”。虽然我比较肯定他的出发点,但是禁不住再较真一番:首先,70个字符承载的信息究竟够不够?粗略计算一下,根据新华翻译社的多年翻译经验,英译中的字数大约是1:1.8(英:中),而统计表明, 英文平均每个单词4.5个字母。那么140个字母表达的意思是可以翻译成(140/4.5*1.8=) 56个汉字的。如果从这个角度看,70个汉字其实是足够表达一个简单的语义的(所以很多中文twitter用户都发现140个汉字能表达的信息远远大于 140个字母,优越感油然而生)。其次,关于国内微博输入英文这一点有一个很有趣的发现:如果国内把字数设定为70字,那么发英文的更新的确是个难题。但 是新浪微博有个独创性的事,就是两个英文字符(字母、空格、数字、英文符号等)算一个字,也就是允许用户输入280个英文字符。这算是创举了,看来新浪微博果然是允许用户发两倍于twitter数目的信息(中英文包含在内),原因不详。
倒是这位同学的考据路线和我走的差不多(我看了他的文章才想起来校内是从70字的限制增加到140字的),不过我们都没有任何确凿的证据说明汉字140字的取法,我也不是任何方面的专家,也没做过多少字满足微博需要的调查,以上都是不负责任的推测,期待行内人士详解。
(logo里果断截了“测试版”仨字,以贺国内各微博的“二次beta”)
bonus:关于短信的字数限制
中文短信的字数限制是70字,本来没想过为什么要控制在这个字数之内,被twitter的解释给弄的好奇了,于是继续考据。
先讲个故事:1985年的德国波恩,Friedhelm Hillebrand坐在自己家里,啪嗒啪嗒的敲着打字机的键盘,随意的打着一些句子。这位通信专家一边打一边数着字母、数字、标点和空格的数目,最终发 现160个字符足够表现一个简单的意思。当时Hellebrand正在参与一个允许手机发送及显示文字消息的标准制定计划,他们考虑到无线网络的带宽限 制,消息越短越好。最终,Hillebrand坚持认为160字是最好的长度限制,短信长度的限制也由此而来。
关于160字的限制,洛杉矶时报的这篇文章解释得格外详细(这个故事就取自文章前一部分),国内也有很不错的翻译版本,可以自行在Google搜索“twitter的创始人可能都还在玩泥巴”。
而我最信任的wikipedia大神在SMS的 词条中提到,“it was necessary to limit the length of the messages to 128 bytes (later improved to 140 bytes, or 160 7-bit characters), so that the messages could fit into the existing signaling formats.” 也就是说,160字符实际上来源于140字节的限制,140字节相当于(140*8/7=)160个7位字符(140个8位字符,70个16位字符,如汉 字)。而 Hillebrand的打字机实验,以及对明信片字母数的统计(一般不超过150字母),验证了160个字符可以胜任简单语义的表达。
后来看到了一个好消息,说手机短信20年来首次扩容,电信要支持150字的短信了,不知道依据和意义何在,09年的新闻说“年内可以为用户提供服务”,如今2010年已过半,除了09年那条旧新闻,也搜不到已经扩容的消息,看来项目推进延期了不少。
考据毕。
来源:http://www.starming.com