Python 高级图像处理

构建图像搜索引擎并不是一件容易的任务。这里有几个概念、工具、想法和技术需要实现。主要的图像处理概念之一是逆图像查询reverse image querying(RIQ)。Google、Cloudera、Sumo Logic 和 Birst 等公司在使用逆图像搜索中名列前茅。通过分析图像和使用数据挖掘 RIQ 提供了很好的洞察分析能力。

顶级公司与逆图像搜索

有很多顶级的技术公司使用 RIQ 来取得了不错的收益。例如:在 2014 年 Pinterest 第一次带来了视觉搜索。随后在 2015 年发布了一份白皮书,披露了其架构。逆图像搜索让 Pinterest 获得了时尚品的视觉特征,并可以显示相似产品的推荐。

众所周知,谷歌图片使用逆图像搜索允许用户上传一张图片然后搜索相关联的图片。通过使用先进的算法对提交的图片进行分析和数学建模,然后和谷歌数据库中无数的其他图片进行比较得到相似的结果。

这是 OpenCV 2.4.9 特征比较报告一个图表:

算法 & Python库

在我们使用它工作之前,让我们过一遍构建图像搜索引擎的 Python 库的主要元素:

专利算法

尺度不变特征变换Scale-Invariant Feature Transform(SIFT)算法

  1. 带有非自由功能的一个专利技术,利用图像识别符,以识别相似图像,甚至那些来自不同的角度,大小,深度和尺度的图片,也会被包括在搜索结果中。点击这里查看 SIFT 详细视频。
  2. SIFT 能与从许多图片中提取了特征的大型数据库正确地匹配搜索条件。
  3. 能匹配不同视角的相同图像和匹配不变特征来获得搜索结果是 SIFT 的另一个特征。了解更多关于尺度不变关键点

加速鲁棒特征Speeded Up Robust Features(SURF)算法

  1. SURF 也是一种带有非自由功能的专利技术,而且还是一种“加速”的 SIFT 版本。不像 SIFT,SURF 接近于带有箱式过滤器Box Filter的高斯拉普拉斯算子Laplacian of Gaussian。
  2. SURF 依赖于黑塞矩阵Hessian Matrix的位置和尺度。
  3. 在许多应用中,旋转不变性不是一个必要条件,所以不按这个方向查找加速了处理。
  4. SURF 包括了几种特性,提升了每一步的速度。SIFT 在旋转和模糊化方面做的很好,比 SIFT 的速度快三倍。然而它不擅长处理照明和变换视角。
  5. OpenCV 程序功能库提供了 SURF 功能,SURF.compute() 和 SURF.Detect() 可以用来找到描述符和要点。阅读更多关于SURF点击这里

开源算法

KAZE 算法

  1. KAZE是一个开源的非线性尺度空间的二维多尺度和新的特征检测和描述算法。在加性算子分裂Additive Operator Splitting(AOS)和可变电导扩散中的有效技术被用来建立非线性尺度空间。
  2. 多尺度图像处理的基本原理很简单:创建一个图像的尺度空间,同时用正确的函数过滤原始图像,以提高时间或尺度。

加速的 KAZEAccelerated-KAZE(AKAZE) 算法

  1. 顾名思义,这是一个更快的图像搜索方式,它会在两幅图像之间找到匹配的关键点。AKAZE 使用二进制描述符和非线性尺度空间来平衡精度和速度。

二进制鲁棒性不变尺度可变关键点Binary Robust Invariant Scalable Keypoints(BRISK)算法

  1. BRISK 非常适合关键点的描述、检测与匹配。
  2. 是一种高度自适应的算法,基于尺度空间 FAST 的快速检测器和一个位字符串描述符,有助于显著加快搜索。
  3. 尺度空间关键点检测与关键点描述帮助优化当前相关任务的性能。

快速视网膜关键点Fast Retina Keypoint(FREAK)

  1. 这个新的关键点描述的灵感来自人的眼睛。通过图像强度比能有效地计算一个二进制串级联。FREAK 算法相比 BRISK、SURF 和 SIFT 算法可以更快的计算与内存负载较低。

定向 FAST 和旋转 BRIEFOriented FAST and Rotated BRIEF(ORB)

  1. 快速的二进制描述符,ORB 具有抗噪声和旋转不变性。ORB 建立在 FAST 关键点检测器和 BRIEF 描述符之上,有成本低、性能好的元素属性。
  2. 除了快速和精确的定位元件,有效地计算定向的 BRIEF,分析变动和面向 BRIEF 特点相关,是另一个 ORB 的特征。

Python库

OpenCV

  1. OpenCV 支持学术和商业用途,它是一个开源的机器学习和计算机视觉库,OpenCV 便于组织利用和修改代码。
  2. 超过 2500 个优化的算法,包括当前最先进的机器学习和计算机视觉算法服务与各种图像搜索--人脸检测、目标识别、摄像机目标跟踪,从图像数据库中寻找类似图像、眼球运动跟随、风景识别等。
  3. 像谷歌,IBM,雅虎,索尼,本田,微软和英特尔这样的大公司广泛的使用 OpenCV。
  4. OpenCV 拥有 python,java,C,C++ 和 MATLAB 接口,同时支持 Windows,Linux,Mac OS 和 Android。

Python 图像库 (PIL)

  1. Python 图像库(PIL)支持多种文件格式,同时提供图像处理和图形解决方案。开源的 PIL 为你的 Python解释器添加了图像处理能力。
  2. 标准的图像处理能力包括图像增强、透明和遮罩处理、图像过滤、像素操作等。

详细的数据和图表,请看这里的 OpenCV 2.4.9 特征比较报告。

构建图像搜索引擎

图像搜索引擎可以从预置的图像库选择相似的图像。其中最受欢迎的是谷歌的著名的图像搜索引擎。对于初学者来说,有不同的方法来建立这样的系统。提几个如下:

  1. 采用图像提取、图像描述提取、元数据提取和搜索结果提取,建立图像搜索引擎。
  2. 定义你的图像描述符,数据集索引,定义你的相似性度量,然后进行搜索和排名。
  3. 选择要搜索的图像,选择用于进行搜索的目录,搜索所有图片的目录,创建图片特征索引,评估搜索图片的相同特征,匹配搜索的图片并获得匹配的图片。

我们的方法基本上从比较灰度版本的图像,逐渐演变到复杂的特征匹配算法如 SIFT 和 SURF,最后采用的是开源的解决方案 BRISK 。所有这些算法都提供了有效的结果,但在性能和延迟有细微变化。建立在这些算法上的引擎有许多应用,如分析流行统计的图形数据,在图形内容中识别对象,等等。

举例:一个 IT 公司为其客户建立了一个图像搜索引擎。因此,如果如果搜索一个品牌的标志图像,所有相关的品牌形象也应该显示在搜索结果。所得到的结果也能够被客户用于分析,使他们能够根据地理位置估计品牌知名度。但它还比较年轻,RIQ(反向图像搜索)的潜力尚未被完全挖掘利用。

原文发布时间为:2016-08-14

时间: 2024-08-02 10:59:55

Python 高级图像处理的相关文章

探讨Python高级编程技巧及实例

前面我们讲了Python高级数据结构学习教程,现在我们来看看一些高级的Python设计结构和它们的使用方法. 在日常工作中,你可以根据需要选择合适的数据结构,例如对快速查找性的要求.对数据一致性的要求或是对索引的要求等,同时也可以将各种数据结构合适地结合在一起,从而生成具有逻辑性并易于理解的数据模型.Python的数据结构从句法上来看非常直观,并且提供了大量的可选操作.这篇指南尝试将大部分常用的数据结构知识放到一起,并且提供对其最佳用法的探讨. 推导式(Comprehensions) 如果你已经

Python高级数据结构学习教程

本文虽然不是很深入,不过实例比较多,学习Python高级数据结构的好基础教程. 数据结构的概念 数据结构的概念很好理解,就是用来将数据组织在一起的结构.换句话说,数据结构是用来存储一系列关联数据的东西.在Python中有四种内建的数据结构,分别是List.Tuple.Dictionary以及Set.大部分的应用程序不需要其他类型的数据结构,但若是真需要也有很多高级数据结构可供选择,例如Collection.Array.Heapq.Bisect.Weakref.Copy以及Pprint.本文将介绍

Python的高级图像处理

构建图像搜索引擎并不是一件容易的任务.这里有几个概念.工具.想法和技术需要实现.主要的图像处理概念之一是逆图像查询reverse image querying(RIQ).Google.Cloudera.Sumo Logic 和 Birst 等公司在使用逆图像搜索中名列前茅.通过分析图像和使用数据挖掘 RIQ 提供了很好的洞察分析能力. 顶级公司与逆图像搜索 有很多顶级的技术公司使用 RIQ 来取得了不错的收益.例如:在 2014 年 Pinterest 第一次带来了视觉搜索.随后在 2015 年

Python高级:细说Python浅拷贝和深拷贝

0.说明          先看看浅拷贝的概念: 浅拷贝:对一个对象进行浅拷贝其实是新创建了一个类型跟原对象一样,其内容还是原来对象元素的引用,换句话说,这个拷贝的对象本身是新的,但是它的内容不是         序列类型对象的浅拷贝是默认类型拷贝,有以下几种实现方式: 完全切片操作:下面操作会有 利用工厂函数:比如list().dict()等 使用copy模块的copy()函数         其实如果是真正理解了Python对象或者说理解了可变对象和不可变对象,再根据上面的理论知识,浅拷贝和

Python高级应用实例对比:高效计算大文件中的最长行的长度_python

前2种方法主要用到了列表解析,性能稍差,而最后一种使用的时候生成器表达式,相比列表解析,更省内存 列表解析和生成器表达式很相似: 列表解析 [expr for iter_var in iterable if cond_expr] 生成器表达式 (expr for iter_var in iterable if cond_expr)  方法1:最原始 复制代码 代码如下: longest = 0f = open(FILE_PATH,"r")allLines = [line.strip()

介绍Python中的一些高级编程技巧_python

 正文: 本文展示一些高级的Python设计结构和它们的使用方法.在日常工作中,你可以根据需要选择合适的数据结构,例如对快速查找性的要求.对数据一致性的要求或是对索引的要求等,同时也可以将各种数据结构合适地结合在一起,从而生成具有逻辑性并易于理解的数据模型.Python的数据结构从句法上来看非常直观,并且提供了大量的可选操作.这篇指南尝试将大部分常用的数据结构知识放到一起,并且提供对其最佳用法的探讨.推导式(Comprehensions) 如果你已经使用了很长时间的Python,那么你至少应该听

苹果MAC中安装Python图像处理库PIL

开发平台是Mac,需要用到Python的图像处理库PIL,下面记录了安装过程以及出现的问题. 基本安装过程是这样的,使用命令pip进行安装  代码如下 复制代码 $ pip install PIL Downloading/unpacking PIL   Could not find any downloads that satisfy the requirement PIL   Some externally hosted files were ignored (use --allow-exte

Mahotas 0.8发布 Python图像处理库

Mahotas 是一个用于Python的图像处理库.它包含了实现C++++加速的图像处理算法,主要算法是流域和域值. Mahotas 0.8该版本针对一个命名空间的重组.某些功能已经移到子模块.在扩展的重要()的错误已得到修复.添加一些新的形态的功能:打开(),关闭(),regmax()和regmin(). 软件信息:http://luispedro.org/software/mahotas 下载地址:http://pypi.python.org/packages/source/m/mahota

Mahotas 0.7发布 Python图像处理库

Mahotas是一个用于Python的图像处理库.它包含了实现C++++加速的图像处理算法,主要算法是流域和域值. Mahotas 0.7该版本scipy的依赖性已删除.添加一个插值模块.64位机和2D TAS FreeImage的错误已修复. 软件信息:http://luispedro.org/software/mahotas 下载地址:http://pypi.python.org/packages/source/m/mahotas/mahotas-0.7.tar.gz#md5=c05a01b