问题描述
就是我有一份公司信息数据,我要提取出每个公司名称并去重。现在的问题是:例1::“江西省新余市某某农机有限公司”和“新余市晶丰农业机械制造有限公司”其实是同一公司例2:“江西赣州第一建筑有限公司”和“江西抚州第一建筑有限公司”,去掉前面地区和后面有限公司后都是“第一建筑”,可这是俩公司啊像碰到这类情况如何去重
解决方案
这属于机器学习,忒智能了点,不过倒是可以写个程序,把所有的名字相似的抓出来,人工核对一下。把两个串拆开,一个个字对比,如果有超过一半的字符一样,那么判断相似,然后存起来
解决方案二:
Entity Recognation 问题。典型人工智能问题。要求100%准确的话,无解。有些问题只能人工判断,甚至人都判断不了。不要求100%准确的话,可以通过各种方法来实现。先分词,计算相似性,聚类。或者写基于统计的机器学习模块,需要人工训练。
解决方案三:
如果名字相同,那么应该再设置一个字段作为代号,用名字和代号来组合查询,这样就可以避免重复的数据,如果不能新增代号字段,个人认为可以改变去重条件,不然无法区分同名的数据。
解决方案四:
这个不同名属于同一公司 只有提前定制规则了,定制同一公司多个名字的规范不在这个规范里的都认为是同一公司,这个没别的办法
时间: 2024-09-13 02:10:54