如何统计文档中某个特定词组(比方说姓名)出现的次数== 不是字符,

问题描述

现在想要分析一部小说中不同人物出现的次数,,不是单个字符哦==比如说神雕侠侣中杨过出现的次数。找了不少资料和代码,发现大部分都是统计英文中单词出现的次数,而且英文中有空格可以用来分割,但是一句话中要怎么提取出特定的一个词啊,(还要尽量考虑别名的情况,比如杨过还叫过儿啊===)次数统计的方法可以用TreeMap就不用说了。。。妈蛋的课设。。求大神解答

解决方案

解决方案二:
对了,因为文本要求是20万字以上所以我用的是RandomAccess读的文件
解决方案三:
还有杨大哥,傻蛋...
解决方案四:
杨兄,杨兄弟,杨贤侄,杨相公,杨郎,大哥哥,杨居士,姓杨的,神雕侠,神雕大侠
解决方案五:
杨少侠,杨大侠,姓杨名过,杨老弟,杨公子,杨某,杨哥哥,杨师弟,杨英雄,杨爷,杨家哥哥,姓杨的小子,杨小邪,杨君,杨相公
解决方案六:

解决方案七:
杨大爷,西狂,傻兄
解决方案八:
引用3楼waynexuan的回复:

杨兄,杨兄弟,杨贤侄,杨相公,杨郎,大哥哥,杨居士,姓杨的,神雕侠,神雕大侠

卧槽兄弟你太机智了,继续
解决方案九:
我晕!
解决方案十:
各位可以上点心么!妈蛋
解决方案十一:
正则表达式在有中文的时候可以用吗,如果可以,那就匹配吧
解决方案十二:
引用10楼dahlwuyn的回复:

正则表达式在有中文的时候可以用吗,如果可以,那就匹配吧

我现在用的是Scanner,可以扫描一个人名了。但是因为人名储存在数组中,用For循环的话,扫描完第一个人,Scanner就读到文件末尾了,有没有一种循环可以让Scanner多次扫描的,不然就只能同样代码写十遍了==
解决方案十三:
这个还是用全文检索吧。lucense
解决方案十四:
推荐正则表达式
解决方案十五:
引用12楼huxiweng的回复:

这个还是用全文检索吧。lucense

OH,不能再改了。。明天上午就要交了,今天还有一下午的课
解决方案:
引用13楼zhu19870712的回复:

推荐正则表达式

11楼问题求解答。。。
解决方案:
你目前的方式应该是有多少组人名就会将整个文件扫描多少次吧,不能改成一次扫描匹配多组人名吗?
解决方案:
引用11楼u011228889的回复:

Quote: 引用10楼dahlwuyn的回复:
正则表达式在有中文的时候可以用吗,如果可以,那就匹配吧

我现在用的是Scanner,可以扫描一个人名了。但是因为人名储存在数组中,用For循环的话,扫描完第一个人,Scanner就读到文件末尾了,有没有一种循环可以让Scanner多次扫描的,不然就只能同样代码写十遍了==

用那个可推回的输出流吧,或者随机读写文件流

时间: 2024-10-15 01:45:26

如何统计文档中某个特定词组(比方说姓名)出现的次数== 不是字符,的相关文章

如何在Word文档中的表格精确定位查找姓名

  在windows7系统下载的Word中进行查找时,如果是英文串,勾寻全字匹配"时可以精确地定位到一个字符串.但是对于中文来说,就有点爱莫能助了.比如在一份有关职员的Word表格中,因为单位人员多,人的姓名往往有一定的重合性和包含关系,比如一个员工"杨群",另外一个员工"杨群芳",此时我们想直接查找到员工"杨群"时,可以利用通配符的方法来实现功能. 文档中的表格精确定位查找姓名-查找iphone定位精确度"> 按下CT

在Word 2007文档中设置和显示隐藏文字

用户在使用Word2007编辑文档时,有时需要将Word文档中的特定文字设置为隐藏文字,以实现保密效果.本篇教程介绍在 Word2007文档中设置和显示隐藏文字的方法. 1.设置隐藏文字 用户可以在Word2007"字体"对话框中将特定文 字内容设置为隐藏文字,操作步骤如下所述: 第1步:打开Word2007文档窗口,选中需要设置为隐藏文字的文字内容.然 后在"开始"功能区的"字体"分组中单击"显示'字体'对话框"按钮,如图2

在Word 2010文档中设置和显示隐藏文字

用户在使用Word 2010编辑文档的过程中,常常需要将Word文档中的特定文字设置为隐藏文字,以实现保密效果.本篇教程介 绍在Word 2010文档中设置和显示隐藏文字的方法. 1.设置隐藏文字 用户可以在Word 2010"字体"对话框中将特定文字内容设置为隐藏文字,操作步骤如下所述: 第1步:打开Word 2010文档窗口,选中需要设置为隐藏文字的文字内容.然后在"开始"功能区的"字体 "分组中单击"显示'字体'对话框"

Word文档中只打印部分页面的方法

  1.启动Word 2013,打开需要打印的文档.单击"文件"标签,在打开的窗口左侧选择"打印"选项,在右侧单击"打印所有页"按钮,在打开的列表中选择"打印当前页面"选项,如图1所示. 图1 选择"打印当前页面"选项 注意 Word文档除了包括正文之外,还包括很多附属内容,如文档属性.标记列表以及批注和修订等内容,这些内容是至关重要的信息.如果需要单独打印这些内容,可以在图1中打开的菜单的"文档

vb 读取word文档中的数据和图片

问题描述 vb 读取word文档中的数据和图片 http://bbs.csdn.net/topics/390528303?page=1 我遇到了和该帖同样的问题: 需要将一个doc文档中 按特定字符分割后提取出内容 内容不只有字符还有图 比如: /xxxxxxxxxxx[图片1]xxxx/ /xxxxxxxxxxxxxxxx[图片2]xxxxxxxxxxxxxxxx/xxxxxxx[图片3]/ 请大家给点建议 尽量详细 解决方案 建议通过ole连接word,然后你直接用VBA函数来实现,查找指定

Word2003文档中的文字怎么对齐

Word2003文档中的文字怎么对齐 1.选中要更改字符宽度的文字,格式-调整宽度. 2.为文字设置合适的宽度,然后单击"确定"按钮. 3.现在"分隔符"就与"时间和日期"对齐了. word教程 Excel教程 PowerPoint教程

Word文档中快速输入特定内容的方法

  Word文档中快速输入特定内容的方法           1.单击"文件"按钮,在打开的面板中选择"选项". 2.此时会打开名为"Word选项"的窗口,在左侧选择"校对"命令,然后在右侧的窗口中找到"自动更正选项"按钮. 3.在"自动更正"选项卡的"替换"文本框中为自己需要重复输入的内容设置一个"快捷键"(例如<1>),然后在&qu

Word2003文档中字数统计在哪?

Word2003文档中字数统计在哪?   方法一 单击"工具"菜单下的"字数统计"命令,会弹出一个对话框,里面有关于字数统计的信息. 方法二 按下Ctrl+Shift+G组合键,也会弹出"字数统计"对话框. word教程 Excel教程 PowerPoint教程

word中插入域功能来动态统计文档字数

其实通过word"工具"->"字数统计"菜单也可以查看文档字数,这里介绍使用word"域"功能来动态显示字数统计.同理,你还可以使用"域"来做很多事. ①单击菜单栏上的"插入",在弹出的下拉列表中选择"域". ②在弹出的"域"窗口中"类别"里面选择"文档信息";在"域名"下面选择"NumCha