随着数据技术的飞速发展以及广泛应用,许多企业和部门建立了自身的数据管理系统,经过长年努力,已经积累了越来越多的数据。于是,人们开始渴望通过对这些庞大的数据分析得到更多的有助于决策的信息。虽然,目前的数据系统可以高效率地实现数据的录入、查询、统计等功能,但由于数据量庞大以及数据库系统中分析方法的严重缺乏,使得它无法发现数据中隐藏的相互联系,更无法根据当前和历史的数据去预测未来的发展趋势。因此,出现了所谓“数据多,知识少”的现象,造成了严重的资源浪费。
建立在数据系统之上的计算机决策支持系统出现,为进行高层次的数据决策分析提供了良好的思路和方法。但由于决策支持系统在数据的采集、分析方法上的灵活性等方面存在局限性,使得人们不得不寻求更有效的途径去开拓数据决策分析的思路。计算机人工智能为此作出了巨大贡献。人工智能经历了博奕、自然语言理解、知识工程等阶段,已经进入了机器学习的热点阶段。
NLPIR文本搜索与挖掘系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,专门针对原始文本集进行处理和加工,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,适应于众多应用场景。
NLPIR文本搜索与挖掘开发平台的十二大功能:
1. 全文精准检索:支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。
2. 新词发现:从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。
3. 分词标注:对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。
4. 统计分析与术语翻译:针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自动给出相应的英文解释。
5. 文本聚类及热点分析:能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。
6. 分类过滤:针对事先指定的规则和示例样本,系统自动从海量文档中筛选出符合需求的样本。
7. 正负面分析:针对事先指定的分析对象和示例样本,系统自动从海量文档中筛选出正负面的得分和句子样例。
8. 自动摘要:能够对单篇或多篇文章,自动提炼出内容的精华,方便用户快速浏览文本内容。
9. 关键词提取:能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快速匹配等。
10. 文档去重:能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。
11. HTML正文提取:自动剔除导航性质的网页,剔除网页中的HTML标签和导航、广告等干扰性文字,返回有价值的正文内容。适用于大规模互联网信息的预处理和分析。
12. 编码自动识别与转换:自动识别内容的编码,并把编码统一转换为GBK编码。
数据挖掘是一门交叉学科,它汇聚了数据库、人工智能、统计学、可视化、并行计算等不同学科和领域,近年来受到各界的广泛关注。
NLPIR技术助力中文智能数据挖掘
时间: 2025-01-19 07:55:38
NLPIR技术助力中文智能数据挖掘的相关文章
联想创投大数据基于开源技术 助力全球智能制造
由中国开源软件推进联盟(COPU)主办的第十一届开源中国开源世界高峰论坛(简称论坛)于2016年6月24日-25日在京举办.这是我国开源界一年一度的嘉年华盛会,也是具有深远影响的国际学术论坛.论坛有力促进开源社区.企业.院校.科研机构.用户之间的相互交流与合作,推动开源软件在中国及全球的发展.联想创投集团大数据业务在此次高峰论坛上展示了联想大数据平台如何协助企业应对全球化挑战和复杂的开源技术,探索出一条制造企业全球大数据方案之路,并运用开源大数据技术助力全球智能制造.联想集团副总裁.首席研究员田
机器人技术国家工程研究中心主任王天然:机器人助力中国智能制造
随着机器人的飞速发展,工业机器人已经广泛应用于许多的工业现场.为了提高生产率,降低人工成本,更好地为中国制造业服务,发展国产机器人技术是当前热议的话题之一.在11月23日举行的2015世界机器人大会现场,机器人技术国家工程研究中心主任.中国工程院院士王天然从需求.基础和方向三个方面深入探讨了我国国产机器人的当前形势和未来的发展方向. 机器人技术国家工程研究中心主任.中国工程院院士 王天然 机器人在中国家市场的发展日益增长,从2000年到2013年,仅13年时间进口机器人已经从380台增长到368
物联网、ICT技术助力智慧城市建设高峰论坛将在成都举行
为促进中国智慧城市建设,推动物联网技术与产业的健康发展,8月16日-19日,由中国电子学会主办,中国电子学会通信学分会.四川省电子学会承办的物联网.ICT技术助力智慧城市建设高峰论坛将在成都举行.届时,来自全国物联网领域的企业负责人和相关专家将聚首蓉城,共谋智慧城市建设和物联网产业发展大计. 据悉,智慧城市建设是我国十二五规划的重要战略目标之一,是城市整合发展的更高形态,温家宝总理由此提出"感知中国"战略,其核心在于运用现代ICT技术构建无所不在的高速融合网络.智能感知环境和海量运算能
数梦工场新型互联网技术助力吉利领克汽车新营销
1.7秒,领克01耀Pro抢订完毕, 成为领克 01最快秒光车型! 2.1秒,201台领克01时间限量版订单被秒光! 137秒,6000台领克 01量产版订单被秒光, 57分钟完成支付! 领克01在2017年11月17日创造了历史,以惊人的成绩再次刷新了汽车行业的销售记录. 2017年11月17日20点01分,高端合资品牌领克汽车旗下首款车型领克01在领克商城线上正式开启抢订.参与此次抢定的6000台量产车型分为"纯.型.劲.耀"四个版型,还有特别惊艳的领克01时间限量版也同步预售
蓝牙技术将成为智能家庭领域的统一标准
摘要: 在2014蓝牙亚洲大会上,蓝牙技术联盟CMO卓文泰对搜狐IT表示,蓝牙技术联盟将与合作伙伴一起,共同推进蓝牙技术在智能家庭领域的普及.蓝牙技术将成为智能家庭领域的统一标准. 在2014蓝牙亚洲大会上,蓝牙技术联盟CMO卓文泰对搜狐IT表示,蓝牙技术联盟将与合作伙伴一起,共同推进蓝牙技术在智能家庭领域的普及.蓝牙技术将成为智能家庭领域的统一标准. 在智能家居领域,出于各种不同的目的,目前各家电厂商.互联网厂商推出的智能家居设备普遍无法互联互通.由于目前蓝牙技术已经普遍被用于智能 手机 .平
博思得RFID技术引领物联网智能打印
中关村(000931,股吧)在线办公打印频道原创8月18日- 20日,第八届深圳国际物联网与智慧中国博览会即将拉开帷幕.深圳物联网展是国内首个全面辐射物联网技术在交通.工业自动化.智能电网.物流.防伪.人员.车辆.军事.资产管理.服饰及图书管理等领域解决方案和成功应用的国际盛会. 博思得RFID技术引领物联网智能打印 展会现场,来自全球物联网行业的知名企业齐聚一堂,展示并分享关于RFID技术.传感器.无线通讯及电子标签的最新技术成果及应用.以RFID无线射频识别技术为代表的信息技术正深刻影响着各
打通后端的连接技术将决定智能家居的落地
如今,智能家居在终端方面的推进力度很大,智能设备的数量和品类日渐丰富.但是,作为智能家居的核心在于网络的互联互通,因此,打通后端的连接技术将决定智能家居的落地. 除了以海尔.美的.海信等大型的家电厂商,以腾讯.京东为主的互联网企业都在做自己的智能家居平台和解决方案之外,近日,鸿雁电器正式发布智能家居思远2.0系统,得益于诸多大平台的参与,使得智能家居从概念到落地的节奏逐步加快. 据小编获悉,"思远2.0"由物联网PaaS平台AbleCloud为其提供物联网云平台技术与服务,现已推出&q
物联网技术下的智能停车场解决方案
随着汽车消费的持续增长,城市停车设施.规划.管理等方面不够完善,导致机动车停车供需矛盾.伴随着停车难问题的日益凸显,面对停车位有限资源与无限需求之间的矛盾,物联网时代就要充分利用物联网技术的力量解决有限资源重组问题,而智慧停车场的概念和解决方案正逐渐为商业停车场运营方所理解和推崇.智慧停车场目前大部分住宅小区停车位管理仍然是物业简单粗犷状态,满足的是小区业主自己的停车管理.因此,停车方面更加便捷的管理方式是所有人希望实现的.存量停车场的管理系统改造升级和停车场增建及产业模式创新,将推动智慧停车行
《智能家居产品 从设计到运营》——第2章 技术搭台——与智能家居相关的技术
第2章 技术搭台--与智能家居相关的技术 智能家居产品 从设计到运营 [本章引语] 被誉为史上最伟大的歌舞片之一的电影<雨中曲>(Singin'in the Rain),在风靡了几十年之后,被搬上了各地剧场的舞台.演员们在台上的人造雨中翩翩起舞,尽情地演绎着"雨中曲":观众们伴着雨中的湿气,更加沉浸在歌声里.为了营造效果,有的场次甚至会用到4000公斤的水,但不用担心剧场的环境,整个舞台会在中场休息时被清扫得干干净净.而这一切都归功于强大的舞台设计,因为只有技术过硬,演员们