如何提取公司真实名称

问题描述

就是我有一份公司信息数据,我要提取出每个公司名称并去重。现在的问题是:例1::“江西省新余市某某农机有限公司”和“新余市晶丰农业机械制造有限公司”其实是同一公司例2:“江西赣州第一建筑有限公司”和“江西抚州第一建筑有限公司”,去掉前面地区和后面有限公司后都是“第一建筑”,可这是俩公司啊像碰到这类情况如何去重

解决方案

这属于机器学习,忒智能了点,不过倒是可以写个程序,把所有的名字相似的抓出来,人工核对一下。把两个串拆开,一个个字对比,如果有超过一半的字符一样,那么判断相似,然后存起来
解决方案二:
Entity Recognation 问题。典型人工智能问题。要求100%准确的话,无解。有些问题只能人工判断,甚至人都判断不了。不要求100%准确的话,可以通过各种方法来实现。先分词,计算相似性,聚类。或者写基于统计的机器学习模块,需要人工训练。
解决方案三:
如果名字相同,那么应该再设置一个字段作为代号,用名字和代号来组合查询,这样就可以避免重复的数据,如果不能新增代号字段,个人认为可以改变去重条件,不然无法区分同名的数据。
解决方案四:
这个不同名属于同一公司 只有提前定制规则了,定制同一公司多个名字的规范不在这个规范里的都认为是同一公司,这个没别的办法

时间: 2024-09-13 02:10:54

如何提取公司真实名称的相关文章

浪潮公司中文名称获注册处通过

8月17日下午消息,浪潮国际今日在港交所发布公告称,开曼群岛公司注册处已批准公司使用中文名称"浪潮国际有限公司". 公告称,公司中文名称修改不会影响现有股东任何权利.新发行股票将同时印有中英文名称"Inspur International Limited浪潮国际有限公司".

久邦数码 总裁张向东宣布正式启用公司品牌名称久邦数码

12月24日上午消息,久邦数码总裁张向东宣布正式启用公司品牌名称"久邦数码".此前久邦数码一直用旗下产品线"3G门户"指代公司. 除启用"久邦数码"集团品牌名称外,久邦数码旗下移动阅读业务也在本次品牌升级中正式以"久邦文学"名称亮相,而3G门户网将继续作为久邦数码的国内产品线品牌使用. 据官网资料显示,3G门户月独立访问用户4400万.GO桌面系列应用作为久邦数码成功在海外拓展的业务,总用户量已达3.25亿,月活跃用户8700

PE作参考更要看公司真实价值

我们老说PE怎么好,投资怎么牛,其实是犯了很多的错误.我在这儿说一下犯的错误.其实错误就是99年,2000年http://www.aliyun.com/zixun/aggregation/12847.html">互联网投资的高潮那儿.第一个是技术太高,当时的企业,具体数字我就不说了,当时谈是100,后来是200,最后成交价是400,但是市场比这个涨的还快,所以当时按照市场的估值,觉得还是便宜,最后就进去了.最后这个企业经过5.6年就成功地上市了,我们原来想象是赚10倍的公司,最后赚了3倍,

网易29日举行特别股东大会更改公司英文名称

新浪科技讯 北京时间3月7日晚间消息,网易(Nasdaq:NTES)今日宣布,将于北京时间2012年3月29日上午10点举行特别股东大会.此次大会旨在对一项特别提议进行投票,即将公司英文名称从"NetEase.com, Inc."更改为"NetEase, Inc.". 公司及董事会认为,该更名提议能够更准确地体现网易的业务运营.如今,网易的业务已涵盖娱乐.社区.电子商务和其他服务. 此次特别股东大会将在网易办公楼召开,具体地址为:北京市海淀区中关村东路1号清华科技园

用STRACE解决公司真实故障一例

这是相关分析文档.为了职业操守,已修改相关公司敏感信息~~~   ~~~~~~~~~~~~~~~~~~~~~~~~   关于论坛每五分钟左右,会有warning.html跳转出现的原因调查   (warning.html)页面显示的即服务器正繁忙,请稍后重试   最近两三周,收到客服及公司同事反映,打开BBS时,会时不时出现warning.html页面的提示跳转. 本周开始正规此问题,但调查一直没有明显头绪.数据库,连接数,触发器,SQL语句抓取,PHP-FPM配置,等等都彻查了一次. 最后,用

请听一个故事------>你真的认为iPhone只是一部手机?苹果惊天秘密!!

在网上看到的一篇小说,感觉有点意思,转载过来大家一起围观下,作者很幽默很风趣. 导读:iPhone的隐藏功能!Jobs的军方身份!图灵服毒自杀的传奇故事!中兴华为的神秘背景! 你真的认为iPhone只是一部手机么?告诉你iPhone中的惊天秘密. 闲言不表,直奔主题.我是一个程序员,上周参加了一个开源软件交流大会,其实会上并没有听到什么新鲜的东西.但是在会中,偶然间听到了一个关于iphone的秘密,却着实令我震惊了,事情具体是这样的,听我慢慢道来. 大会是上午9:00点开始,主持人寒暄了一会,就

Excel如何批量提取全部工作表名称公式

  在使用公式查询或汇总多工作表数据时经常需要用到整个工作簿所有工作表的名称,下面介绍如何用宏表函数GET.WORKBOOK来提取工作表名称. 提取工作表名称过程: Ctrl+F3调出定义名称对话框,或者点击[公式]-[定义名称]调出定义名称对话框. 在[名称]框里输入一个定义名称(本例输入ShName),方便在工作表中引用.在[引用位置]处输入=GET.WORKBOOK(1),设置完毕后点击[确定]按钮. 双击一个单元格,输入公式:=INDEX(ShName,ROW(A1)),这时就返回了包括

渠道商用假量冒充真实用户:开发者求给条活路

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 创业者很苦鳖的,苦于创意,苦于开发,苦于用户体验. 创业者很苦鳖的,就算把产品做好了,不推广也很难获得用户. 创业者很苦鳖的,遇上无良渠道商,花钱做推广,花时间做换量,可产品还是不见起色. 看看一个同样苦鳖的开发者赵学童鞋的自述吧. 我做数据挖掘技术出身,并从事推广工作三年,App付费推广的作假现象已屡见不鲜, 这次终于长见识了,见过作假的,

关于SEO公司的选择问题 元芳你怎么看

选择一家有实力的seo公司对于网络技术不精或很陌生的企业来说是很有必要的.面对众多搜索引擎优化团队,如何才能选择一家适合的有实力的优化公司呢? 很多中小型企业都有网站优化的需求,但是大多苦于找到一家有实力的SEO公司.以下是一些标准可以作为衡量搜索引擎优化公司优劣的基础: 一,搜索引擎公司的主营产品要在搜索引擎里排名靠前. 例如要在百度和谷歌这些搜索引擎上找到他们公司的网站,如果他们的公司还在做竞价排名,很显然这类公司是不可取的.还可以在搜索引擎中搜索公司的名称,从网上的评论中来评价该公司的信誉