方正智思中文信息处理系统解决方案

  方正智思是什么?

  方正智思是中文智能信息挖掘与智能分析处理的系统软件。

  方正智思是以方正多年积累的中文信息处理技术和中文自然语言理解技术为基础,融合了最新的人工智能、信息采集、信息检索、文本挖掘的研究成果,经过严格产品化开发的系统软件。

  方正智思提供对海量文档等数字化内容进行智能采集、智能检索、智能分析处理的功能。基于方正智思可以方便地进行二次开发,快速构建具有智能信息挖掘与智能分析功能的应用系统。

  方正智思应用领域

  网络舆情监测和分析

  政府领导决策支持

  互联网出版信息监管

  网上社情民意收集与分析

  情报信息搜索与挖掘

  政府、企业信息搜索

  各类应用系统的信息管理、分析和挖掘

  体系结构

  方正智思是以中文信息处理技术与数据挖掘技术为核心技术,以智能检索、智能分析和智能处理为核心功能的智能分析处理软件开发平台,其体系结构图如下:

  技术特色

  优秀的中文信息处理

  以方正多年积累的中文信息处理技术为文档特征提取的技术基础,同时支持中文简体(GBK, GB2312)与中文繁体(BIG5),并且支持英文及中英文混合文档。

  丰富的软件二次开发接口

  方正智思具有良好的模块化与可扩展性,框架设计灵活,可方便地加入或替换某一核心算法;各功能模块采用相对独立的形式存在,开发商可根据具体应用选择性地购买使用。

  XML数据交换技术

  XML是一种结构化置标语言,针对文档的语义信息进行结构化的标注。具有规范的结构、强大的数据描述能力与易扩展性。

  跨平台应用

  支持多种操作系统平台,经过严格测试。

  主要功能

  智能采集

  概述

  自动、定时地采集互联网信息内容,并对信息进行收集、整理、归类、存储,统一管理获取的信息,把互联网上的海量信息数据转化为可利用的本地信息。

  功能

  1.模板制作器基于网页源文件(HTML代码和RSS)进行内容获取。

  2.管理配置对站点频道集中分组管理,设定优先级以及多服务器管理。

  3.分布式采集服务部署于多台服务器上,支持新闻、论坛、博客的信息采集。

  应用

  网络舆情收集整理,网络新闻采编,建立企业情报信息库,政府行业网站采集,社会化垂直搜索网站数据源。

  运行环境

  Windows 2000及更高版本,支持多种操作系统。

  智能检索

  概述

  方正智思全文检索以传统的检索与面向海量数据的Web检索为基础,结合自然语言理解技术与数据挖掘技术的最新研究成果,快速检索海量数据,以多种检索方式准确的获取所需信息。

  功能

  1.文本自动分词,词与词间隔自动标记,自动辨识语素和单字词,合成词和短语。

  2.采用字索引与词索引相结合的方式提高查全率与查准率。

  3.倒排索引记录词频率TF、文档频率DF、逆向文档频率IDF、位置等信息。

  4.采用分段逐层合并的索引组织模式,提高海量数据建索引速度。

  5.支持布尔查询、短语检索、范围检索、通配符、邻近查询、同义词、同音词等。

  6.综合考虑对文档权重的影响,利用加权法实现对相关度排序。

  应用

  统一异构数据的查询入口,让用户在最短的时间内获取自己想要的信息。有效地解决海量数据环境的检索查询问题,大大减少了不必要的计算开销,避免了重复计算,提高了计算机系统的响应速度。

  运行环境

  Windows 2000及更高版本、Linux 7以上版本、Solaris 8以上版本,AIX等操作系统。

  智能分析处理

  概述

  智能分析处理功能包括:自动提取关键词、自动摘要、自动分类、自动聚类、自动消重、相关推荐、主题检测等功能。主要提供给应用开发商进行智能分析处理系统的开发,开发接口简单实用。具有良好的模块化与可扩展性,框架设计灵活,各功能模块采用相对独立的形式存在。

  功能

  1.通过对少量的样例文档的训练后,自动快速地对大量文档进行分类。

  2.利用文档的内在特征信息进行智能分析,判断文档的相似性与重复性。

  3.在篇章分析与指代消解技术基础上,对文档自动提取关键词和摘要。

  4.采用文档向量空间模型与K-means聚类算法,对文档集自动聚合类别。

  5.在各种信息来源中追踪那些与讨论目标主题相关的信息片段。

  6.从海量数据中挖掘信息之间的关联关系。

  应用

  方正智思能够对组织内外部的新闻、邮件、Internet信息、文件等非结构化信息,同时包含数据库、XML等结构信息,按照业界先进的模型算法,通过信息智能理解与处理,将信息依照用户的需求,充分有效的集成为整体。通过前端应用系统,为用户提供所需主题、类别的相关信息,实现信息个性化分析与信息资源共享。

  运行环境

  Windows 2000及更高版本、Linux 7以上版本、Solaris 8以上版本,AIX等操作系统。

  联系方式:

  北京方正电子政务技术有限公司

  地址:北京市海淀区成府路298号方正大厦4层

  邮编:100871

  咨询电话:(010)82529034

  传真:(010)82529440

  网址:www.founderegov.com

时间: 2024-10-25 13:23:38

方正智思中文信息处理系统解决方案的相关文章

方正安全文档库系统解决方案

你是否担心公文.机要文件.商业机密等重要文件泄漏? 光驱.软驱等都封掉就安全了吗? 文档格式多种多样,怎样管理? 网络的普及让信息的获取.共享和传播更加方便,同时也增加了重要信息泄密的风险. 调查显示:涉密文档泄露30%-40%是由电子文件的泄露造成的,而在Fortune排名前1千家公司中,每次电子文件泄露所造成的损失平均是50万美元. 如今,政府.企业机密信息大量以电子文档方式存在,而电子文档是很容易传播的. 防火墙或专网.入侵检测等防护系统,可以防止外部人员非法访问,但不能防止内部有权限人员

Mysql在debian系统中不能插入中文的终极解决方案_Mysql

在debian环境下,彻底解决mysql无法插入和显示中文的问题 Linux下Mysql插入中文显示乱码解决方案 mysql -uroot -p 回车输入密码 进入mysql查看状态如下: 默认的是客户端和服务器都用了latin1,所以会乱码. 解决方案: mysql>user mydb; mysql>alter database mydb  character set utf8;! 上文提到了用临时方法更改数据库的字符集设置,显示中文,但是后来发现在有的系统下并不能成功. 比如我用的debi

在U盘上安装Linux系统解决方案

  在U盘上安装Linux系统解决方案 作为一名IT菜鸟,用PE维护系统已经满足不了我的需求,把windows装进U盘又太俗,只能把目光转向Linux了. 大致从网上搜索了一下教程,尽是些N年前老掉牙的教程.别的不说,那个麻烦劲就让人吐了. 时代在发展,科技在进步,其实简单的方法早就有了,虽然网上也有一些,但是并不全面,造成很多问题.现在,本小菜把它总结出来. www.2cto.com 准备工作: | Unetbootin http://dl.dbank.com/c0j5a8kuom:Linux

创想商务B2C建站系统解决方案

我们针对产品在线直销方面构建了一个优秀的建站系统平台,这就是网亚NET!B2C商店系统解决方案,在这个平台上把产品全方位展示与用户在线购买支付上作了一个有机的整合:针对个人网店创业方面,能够以低成本投入最快的实现网上开店做生意盈利的愿望:在针对企业网店方面,企业直接把商品放在自己的网店销售,能够降低产品运输或推广过程中产生的成本,降低产品最终销售价格,从而给消费者的购买减轻负担,产品信息传递更快更直接,企业网店,帮助企业有效降低成本,是企业抢占市场与消费者的强大利器.网亚NET!B2C网店系统采

几款开源的中文分词系统_相关技巧

以下介绍4款开源中文分词系统. 1.ICTCLAS – 全球最受欢迎的汉语分词系统         中文词法分析是中文信息处理的基础与关键.中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词:词性标注:命名实体识别:新词识别:同时支持用户词典:支持繁体中文:支持GBK.UTF-8.UTF-7.UNIC

asp.net url传递中文乱码的解决方案

asp教程.net url传递中文乱码的解决方案 1.设置web.config文件. <system.web> ...... <globalization requestencoding="gb2312" responseencoding="gb2312" culture="zh-cn" fileencoding="gb2312" /> ...... </system.web> 2.传递中文

思博伦全面测试解决方案:助推新一代网络加速部署

向数字化转型,成为各行各业创新升级的必由之路,而不断演进和创新的新一代网络技术则是使能数字化转型的关键.大带宽.高速率.虚拟化.智能化成为未来网络发展的大方向. 在加速新一代网络部署和实现的过程中,除了运营商.设备商等产业生态链成员的努力以外,测试厂商也将扮演非常关键的角色.对此,在近日举行的"SPIRENT DAY 2017"年度会议上,思博伦通信副总裁兼大中华及东亚区总经理谭昊在接受C114专访时表示,全新联网技术在创造新可能性的同时也将面临很多不确定性以及挑战,思博伦创新且完整的

公安110接处警GIS系统解决方案

解决 公安110接处警GIS系统解决方案    对执行任务的巡警车辆进行监控.指挥.调度以及交通事故和110报警处警的辅助处理.监控中心可以实时地掌握车辆的动态.迅速.及时地做出指挥决策,从而大大提高处警的效率. 1.轮询监控功能     系统按照一定的周期将被监控车辆的信息轮流显示在监视终端上,可以从屏幕上直观地看到被控车辆的位置在不停地实时变化. 2.点名监控系统 系统根据指挥人员的特别要求,向指定的车辆发布指令,使其按照较短的时间周期向监控中心发送信息.点名方式为:     ◆从表格中点名

JDK1.2关于JDBC中文问题的解决方案

解决|问题|中文 发信人: hht (Duke), 信区: Java 标  题: JDK1.2关于JDBC中文问题的解决方案&Re yzhang 发信站: 网易虚拟社区 (Mon Jan 11 13:29:43 1999), 转信 忙了几天,终于对JDK1.2的JDBC中文问题有了初步的了解,虽然还有问题存在,但我 想大家可能都着急了吧?:)所以就把我的初步想法先贴出来,欢迎大家补充. JDK1.2的中文问题主要是由于引入了Unicode引起的(其实在1.1版本中就有了),U nicode的字符