统计汉字／英文单词数的python函数

•使用正则式 "(?x) (?: [w-]+ | [x80-xff]{3} )"获得utf-8文档中的英文单词和汉字的列表。
•使用dictionary来记录每个单词／汉字出现的频率，如果出现过则＋1，如果没出现则置1。
•将dictionary按照value排序，输出。

代码如下

复制代码

#!/usr/bin/python
# -*- coding: utf-8 -*-
#
#author: rex
#blog: http://iregex.org
#filename counter.py
#created: Mon Sep 20 21:00:52 2010
#desc: convert .py file to html with VIM.

import sys
import re
from operator import itemgetter

def readfile(f):
with file(f,"r") as pFile:
return pFile.read()

def divide(c, regex):
#the regex below is only valid for utf8 coding
return regex.findall(c)

def update_dict(di,li):
for i in li:
if di.has_key(i):
di[i]+=1
else:
di[i]=1
return di

def main():

#receive files from bash
files=sys.argv[1:]

#regex compile only once
regex=re.compile("(?x) (?: [w-]+ | [x80-xff]{3} )")

dict={}

#get all words from files
for f in files:
words=divide(readfile(f), regex)
dict=update_dict(dict, words)

#sort dictionary by value
#dict is now a list.
dict=sorted(dict.items(), key=itemgetter(1), reverse=True)

#output to standard-output
for i in dict:
print i[0], i[1]

if __name__=='__main__':
main()

可以自定义该程序。例如，

代码如下	复制代码
regex=re.compile("(?x) ( [w-]+ \| [x80-xff]{3} )") words=[w for w in regex.split(line) if w]

时间： 2024-12-02 23:27:22

统计汉字／英文单词数的python函数的相关文章

用于统计项目中代码总行数的Python脚本分享

这篇文章主要介绍了用于统计项目中代码总行数的Python脚本分享,本文直接给出实现代码,需要的朋友可以参考下最近需要统计一下项目中代码的总行数,写了一个Python小程序,不得不说Python是多么的简洁,如果用Java写至少是现在代码的2倍. [code] import os path="/Users/rony/workspace/ecommerce/ecommerce/hot-deploy/" global totalcount totalcount =0 def cfile

MySQL数据库获取汉字拼音的首字母函数

原文:MySQL数据库获取汉字拼音的首字母函数需求简介:最近的一个项目,想实现如下图所示的显示效果.很明显,如果能够获取对应的汉字词组的拼音首字母就可以实现了,如果是固定的几个汉字,人为的拼一下就可以了,不过项目中有多处功能是需要这个效果的,并且事先也不知道对应的汉字是什么,所以就需要一个函数来完成这件事情了,根据网上查询的资料自己改进了一个函数实现的效果,现分享如下. 1:测试环境 1-1:测试工具的信息 1-2:测试数据库的信息 2:测试数据

PYTHON函数中的函数(闭包示例)

python实例看概念总是让人摸不着头脑,看几个python小例子就会了例1 def make_adder(addend): def adder(augend): return augend + addend return adder p = make_adder(23) q = make_adder(44) print p(100) print q(100) 运行结果: 123 144 分析一下: 我们发现,make_adder是一个函数,包括一个参数a

汉字转拼音缩写的函数(C#)

函数|汉字|拼音刚刚整理好-汉字转拼音缩写的函数(C#) 在CSDN上找了一下,没有找一完整的转换函数,特在前人基础上整理了一下,接下来的项目中有可能用到.感谢bugfree(八个飞飞). /// <summary> /// 汉字转拼音缩写 /// Code By MuseStudio@hotmail.com /// 2004-11-30 /// </summary> /// <param

Python函数总结

声明和调用函数: 声明函数的方法是用def关键字,函数名及小括号里面的参数列表. def foo(x): print x 调用函数:给出函数名和一小对括号,并放入所需参数: #!/usr/bin/env pythonimport httplibdef check_web_server(host,port,path): h=httplib.HTTPConnection(host,port) h.request('GET',path) resp=h.getresponse() print 'Http

Python函数返回值实例分析

本文实例讲述了Python的函数返回值用法.分享给大家供大家参考.具体分析如下: 最近学一些Python的基本用法,看到定义函数,发现似乎只能返回一个返回值,想想matlab里返回多个返回值多方便啊,网上查了查,看到有返回多个值的方法. python 函数返回值有两种形式: 1 返回一个值. 2 返回多个值. 现看看返回一个值的吧. ? 1 2 3 4 def firstvalue(a,b): c = a + b return c print firstvalue(1,2) #结果:3 再看

python函数装饰器用法实例详解

本文实例讲述了python函数装饰器用法.分享给大家供大家参考.具体如下: 装饰器经常被用于有切面需求的场景,较为经典的有插入日志.性能测试.事务处理等.装饰器是解决这类问题的绝佳设计, 有了装饰器,我们就可以抽离出大量函数中与函数功能本身无关的雷同代码并继续重用.概括的讲,装饰器的作用就是为已经存在的对象添加额外的功能. ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 #! coding=u

总结的几个Python函数方法设计原则

这篇文章主要介绍了总结的几个Python函数方法设计原则,本文讲解了每个函数只做一件事.保持简单.保持简短.输入使用参数.输出使用return语句等内容,需要的朋友可以参考下在任何编程语言中,函数的应用主要出于以下两种情况: 1.代码块重复,这时候必须考虑用到函数,降低程序的冗余度 2.代码块复杂,这时候可以考虑用到函数,增强程序的可读性当流程足够繁杂时,就要考虑函数,及如何将函数组合在一起.在Python中做函数设计,主要考虑到函数大小.聚合性.耦合性三个方面,这三者应该归结于规划与设

Python函数可变参数定义及其参数传递方式实例详解

本文实例讲述了Python函数可变参数定义及其参数传递方式.分享给大家供大家参考.具体分析如下: python中函数不定参数的定义形式如下: 1.func(*args) 传入的参数为以元组形式存在args中,如: ? 1 2 3 4 5 6 def func(*args): print args >>> func(1,2,3) (1, 2, 3) >>> func(*[1,2,3]) #这个方式可以直接将一个列表的所有元素当作不定参数传入(1, 2, 3) 2.

猜你喜欢

搜狗浏览器导入其他浏览器收藏夹教程

很多用户的电脑上总会有几个浏览器,而用户在使用的时候,可能会把想要收藏的网页收藏在不同的浏览器上.那么,搜狗浏览器怎么导入其他浏览器收藏夹呢?下面,就和小编一起来看看搜狗浏览器导入其他浏览器收藏夹 ...

PS合成码头上的女战士场景

效果图细节处理得非常不错,尤其是光影效果.作者设定好光源位置后,加入的所以素材都根据光源的位置做一定的调整包括明暗,颜色等,这样出来的效果才更逼真. 最终效果 1.我们把码头的素材导入到你的画布中. ...

MySQL5.0中文问题及JDBC数据库连接和JSP汉字编码问题解决方法总结

js|mysql|编码|汉字|解决|数据|数据库|数据库连接|问题|中文解决这类问题的方法很多,今天在此简单的终结一下,把常碰到的问题解决方法记下来! 1, MySQL5.0中文问题解决方案如下 ...

SQL中UNION 与 UNION ALL 的区别

区别 SQLServer2000中UNION与UNION ALL的区别 UNION 运算符: 将两个或更多查询的结果组合为单个结果集,该结果集包含联合查询中的所有查询的全部行.这与使用联接组合两个表中 ...

Dreamweaver 实现多分辨率层定位

dreamweaver|分辨率 1.首先你需要到 www.macromedia.com 网站上去下载一个名为CenterLayers 2.3的插件(下载前得先在网站上注册),大小为8KB(你也可以通过 ...

C#集合对象的属性赋值

(一)前言继<对象属性之间的相互赋值 >后,关于集合对象属性的赋值,主要可以通过循环遍历集合中的对象来进行属性间的赋值.这些可以运用于不同对象之间.相关属性类似的情况.最常见的是web ...

在Word 2010中对项目符号或编号列表使用“正文”样式

在Word 2010文档中,通过启用对项目符号或编号列表使用"正文"样式功能,可以使列表样式基于"正文 "(普通段落)样式而不是"段落列表" ...

Intent和IntentFilter详解

Intent用于启动Activity,Service, 以及BroadcastReceiver三种组件, 同时还是组件之间通信的重要媒介. 使用Intent启动组件的优势 1, Intent为组件的启 ...

Mac版word press怎么安装

如何在Mac下安装WordPress. 1.我们可以在本机安装 WordPress,从而能在本地建站,折腾并调试.本文将详细介绍如何在Mac下安装WordPress. 安装XAMPP; 2.为Wo ...

ASPX保存远程图片到本地的两种方法的函数

Function UpRemoteFileToLocal(ByVal UpType As String, ByVal RemoteUrl As String, ByVal LocalFile As ...

广电开始打击无牌经营无证视听网站堪忧

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅 3月8日消息,广电总局去年颁布的互 ...

中科院自动化所拿下星际争霸AI竞赛第四名，顺便发布了一个训练AI“大局观”的数据集

上周日,互动数字娱乐AI大会(AIIDE)2017中的星际争霸AI竞赛落下帷幕.这一竞赛是即时战略(RTS)游戏AI比赛中最重要的比赛之一,暴雪.DeepMind和Facebook人工智能研究院等机构 ...

Linux线程同步之条件变量

条件变量是线程可用的另一种同步机制.条件变量给多个线程提供了一个会合的场所.条件本身是由互斥量保护的.线程在改变条件状态前必须首先锁住互斥量. 条件变量的初始化 pthread_cond_init ...

如何在获取celery中的任务执行情况

开始以为在flower中获取,原来flower也是从celery中获取的. 如果直接用celery命令,一直会提示拒绝连接. 网上说了,用django命令就可以的. 于是试了下,OK了. 这样,至少可 ...

SQL Server会话KILL不掉，一直处于KILLED /ROLLBACK状态情形浅析

今天遇到一个很奇怪的情况,发现一个会话异常,这个会话只是在执行一个简单的存储过程,里面使用了链接服务器(Linked Server)查询另外一台服务器数据(存储过程里面没有任何显性事务.UPDATE. ...

LLVM Programmer's Mannual---阅读笔记

文档地址: http://llvm.org/docs/ProgrammersManual.html 该文档的主要目的: 该文档主要介绍了LLVM源码的一些重要的类和接口,并不打算解释LLVM是什么 ...

BMP 图片的存储如何将8个点的颜色值保存至一字节

问题描述读取一Bmp图片,循环所有的像素点颜色值,存储至字节数组,每8个至一个字节.现已经可以获取像素点颜色值,代码片段如下,byte[]result=newbyte[bmp.Height*(bmp ...

sql server判断数据库、表、列、视图是否存在_MsSql

1 判断数据库是否存在 if exists (select * from sys.databases where name = '数据库名') drop database [数据库名] 2 判断表是否 ...

XCode 8 Take a screenshot on a device

XCode 8 Take a screenshot on a device If you need a launch image for your app, you can use Xcode to ...

js横向导航菜单特效

提示:您可以先修改部分代码再运行 js横向导航菜单特效 Home Single Level Dropdown Dropline Flyout Support Contact 提示:您可以先修改部分代码 ...

ios 语音-IOS文本转语音，怎么控制语速

问题描述 IOS文本转语音,怎么控制语速写了个文本转语音的dome,感觉读的太快了.研究了半天没有看到设置语速的属性.求大神解答. 解决方案 IOShttp://download.csdn.net/ ...

如何用VC编写代码来破解ftp服务器密码

问题描述如何用VC编写代码来破解ftp服务器密码我是一名在校的网络工程的学生,在实验课里在做如何用VC编写代码来破解ftp服务器密码的课题,目前有点迷茫,忘有好心人能帮助我解答,谢谢. 解决方案 ...

甲骨文推出基于SPARC T4处理器的新Netra SPARC T-系列服务器

甲骨文日前宣布推出基于SPARC T4处理器的新Netra SPARC T-系列服务器,这是为满足http://www.aliyun.com/zixun/aggregation/32277.html& ...

Android 动态改变SeekBar进度条颜色与滑块颜色的实例代码_Android

遇到个动态改变SeekBar进度条颜色与滑块颜色的需求,有的是根据不同进度改变成不同颜色. 对于这个怎么做呢?大家都知道设置下progressDrawable与thumb即可,但是这样设置好就是确定的 ...

分享一则PHP定义函数代码_php技巧

先贴代码复制代码代码如下: <?php function table(){ echo "<table align='center' border='1 ...

js showModalDialog 弹出对话框的简单实例(子窗体)_javascript技巧

<%@ Page Language="C#" AutoEventWireup="true" CodeFile="showdialog_dialo ...

《HTML5游戏编程核心技术与实战》一2.1 基本知识

2.1 基本知识 HTML5游戏编程核心技术与实战在HTML4时代,不安装插件的情况下,基于浏览器的绘图组件是最初由微软向W3C递交的VML(Vector Markup Language矢量标记语言) ...

图片-Android 这报错是为什么？

问题描述 Android 这报错是为什么? Android 这报错是为什么? 解决方案 Android报错信息android 打包混淆报错问题Android 9.png报错解决解决方案二: 包引用不 ...

何构建一个私有存储云

企业构建内部云存储时必须考虑弹性,选择正确的平台,并允许工作流,堆栈部署和公共云集成. 每个云存储选项都有其优点和缺点.企业需要根据自己的具体需求,规模大小,以及资金预算来选择采用哪种云存储,重 ...

一道为“未成熟”的java爱好者的题，成熟者勿笑咱“低智儿” --！只为娱乐

问题描述马上毕业,最近去了2次面试都是java的,有段时间没做java了,面试的也很是郁闷...这道为其中之一,本人稍加修改只为娱乐o(∩_∩)o哈哈高手勿笑importjava.io.*;clas ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.020 s.