性能测试-文本相似度分析的性能检测?

问题描述

文本相似度分析的性能检测?

利用tf-idf算法和余弦相似度算法计算了文本之间的相似度,可是结果出来了,不知道结果的好坏啊,请问大神们有没有知道怎么评测结果的好坏啊?

解决方案

分析算法复杂度。如果算法太复杂,分析起来有困难,评价算法的好坏就是给数据量大小不等的测试样本,运行得到耗费的时间。
对数据量和运行时间的曲线拟合。
糟糕的算法就是随着数据量的增加,时间或者存储的开销呈现几何级数地发散出去。
好的算法是,时间随着数据的增加,呈现常数、收敛在某个值或者是线性增加的。

解决方案二:

也就是O(n^2) O(n^3) O(n!)这些都是不太好的算法
O(1) O(logn) O(n)相对来说就是好的算法。

解决方案三:

你可以用最短编辑距离来衡量你的文本相似度。

时间: 2025-01-21 07:09:16

性能测试-文本相似度分析的性能检测?的相关文章

PostgreSQL 文本数据分析实践之 - 相似度分析

背景 在日常的生活中,我们可能会经常需要一些像相近.相仿.距离接近.性格接近等等类似这样的需求,对数据进行筛选. 这些需求PostgreSQL居然都支持,是不是很变态. 变态的例子 这些场景都支持索引排序和检索,否则怎么叫变态呢. 按长相相似度排序 比如最近的王宝强和马蓉的事件,估计很多人会拿宋喆的照片进行相似度的搜索,八卦八卦. 说起图像搜索,我前几天才写了一篇这样的文章,是关于在PG数据库中使用图像搜索插件的文章. <弱水三千,只取一瓢,当图像搜索遇见PostgreSQL(Haar wave

Android 深度性能测试:功能决定现在,性能决定未来!

深度性能测试能协助测试人员发现APP中存在的深层次性能问题,直接定位多项性能问题及瓶颈的根本原因,方便开发者快速提升APP性能表现,使得APP运行得更加稳定.MQC深度性能测试能够帮助开发者发现深层次的性能问题,更精准地定位问题. 功能决定现在,性能决定未来! 一. 内存泄漏 内存泄漏是指由于代码编写不当导致不再使用的对象无法得到及时释放.内存泄漏产生的内存垃圾不仅浪费资源,拖慢运行效率,甚至还可能造成内存溢出,直接导致应用崩溃. 对于Android应用,比较容易发生泄漏的是Activity.F

深度性能测试:功能决定现在,性能决定未来!

深度性能测试能协助测试人员发现APP中存在的深层次性能问题,直接定位多项性能问题及瓶颈的根本原因,方便开发者快速提升APP性能表现,使得APP运行得更加稳定.MQC深度性能测试能够帮助开发者发现深层次的性能问题,更精准地定位问题. 功能决定现在,性能决定未来! 一. 内存泄漏 内存泄漏是指由于代码编写不当导致不再使用的对象无法得到及时释放.内存泄漏产生的内存垃圾不仅浪费资源,拖慢运行效率,甚至还可能造成内存溢出,直接导致应用崩溃. 对于Android应用,比较容易发生泄漏的是Activity.F

iozone 一个文件系统的性能检测工具。

iozone 一个文件系统的性能检测工具. 一 介绍:iozone(www.iozone.org)是一个文件系统的benchmark工具, 可以测试不同的操作系统中文件系统的读写性能. 可以测试 Read, write, re-read,re-write, read backwards, read strided, fread, fwrite, random read, pread, mmap, aio_read, aio_write 等等不同的模式下的硬盘的性能. 测试的时候请注意,设置的测试

网站推广之链接广泛度分析

链接|推广|网站推广 Internet的变化日新月异,其庞大的容量对搜索引擎的索引更新和服务无疑是一种考验.搜索引擎也一直在努力寻求创新的途径,例如以关联站点的广泛度为基础进行排名,以此抵消对搜索引擎的spam伎俩和对页面因素恶意操纵的不良竞争结果,达到为用户提供最为精准和相关的搜索结果的目的.如今,通过将链接广泛度这个因素整合到其排名算法中,搜索引擎(例如Google)已然能够为冲浪者们提供卓越的搜索经验. 但这并不意味着我们就可以对页面因素和网站内容掉以轻心.正确的理解应该是:对于两个页面优

Linux系统中使用iostat分析IO性能

对于I/O-bond类型的进程,我们经常用iostat工具查看进程IO请求下发的数量.系统处理IO请求的耗时,进而分析进程与操作系统的交互过程中IO方面是否存在瓶颈. 下面通过iostat命令使用实例,说明使用iostat查看IO请求下发情况.系统IO处理能力的方法,以及命令执行结果中各字段的含义. 1.不加选项执行iostat 我们先来看直接执行iostat的输出结果: linux # iostat Linux 2.6.16.60-0.21-smp (linux) 06/12/12 avg-c

鲁大师性能检测多少分比较好?

  鲁大师性能检测多少分比较好?有朋友想知道鲁大师性能测试标准,"鲁大师"是一款专业的性能测试软件,那么使用它来评测设备的多少分比较好呢?一起来了解吧. 鲁大师电脑综合性能评分是通过模拟电脑计算获得的,CPU速度测评分数和模拟3D游戏场景获得的,游戏性能测评分数综合计算所得.评分越高说明你电脑硬件性能好,运行正常,反之说明你电脑硬件性能差,运行不正常. 但是性能检测分数与鲁大师版本有很大关系,所以并没有标准答案.

使用show profiles分析SQL性能

如何查看执行SQL的耗时 使用show profiles分析sql性能. Show profiles是5.0.37之后添加的,要想使用此功能,要确保版本在5.0.37之后. 查看数据库版本 mysql> select version(); profile默认是不打开的 mysql> show profiles; Empty set (0.02 sec) mysql> show variables like "%pro%"; 可以看到profiling 默认是OFF的.

【BABY夜谈大数据】计算文本相似度

简单讲解 上一章有提到过[基于关键词的空间向量模型]的算法,将用户的喜好以文档描述并转换成向量模型,对商品也是这么处理,然后再通过计算商品文档和用户偏好文档的余弦相似度. 文本相似度计算在信息检索.数据挖掘.机器翻译.文档复制检测等领域有着广泛的应用. 比如舆论控制,我们假设你开发了一个微博网站,并且已经把世界上骂人的句子都已经收录进了数据库,那么当一个用户发微博时会先跟骂人句子的数据库进行比较,如果符合里面的句子就不让用户发出. 通常情况下,很多工程师就会想到用like或者where的sql语