`
grunt1223
  • 浏览: 419740 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论
阅读更多
从输入图象到信息获取之间存在着巨大的认知空白,其间需要经过一系列十分复杂的信息处理和理解过程。想象一下,在火车站,我们可以从茫茫人群中精确地找出要迎接的伙伴,这远非现在的机器学习、搜索引擎所能解决的。这再次证明人类视觉系统的强大。对人类视觉过程本质的认识,乃是揭开机器视觉进步的关键。对计算机而言,所有的输入均是矩阵,机器视觉的目的,就是要从这些矩阵中获取有用的信息。

计算机对图像内容的识别,按照难度、应用场景、所使用方法的不同,可以划分为三类:
1、近重复图片检索,主要是查找同源图片的不同版本(光照、旋转、缩放、模糊、logo、水印等、裁剪)
2、场景图片检索,又称物件识别检索,主要是查找在不同场景中出现同一物体,主要需要克服遮挡、仿射、视角改变等效应
3、同类物体检索,即平时所说的CBIR系统,往往需要一些训练、学习过程。

下图很好地说明了这三类检索的区别:



上述1的近重复图片检索,采用edge histogram、scalable color等mpeg-7规范产生的图像签名来构建系统,辅以locality sensitive hash等相似检索的数据结构,能够达到不错的效果,可以用于版权图片保护等应用。

上述3的同类物体检索,自从IBM最早提出基于CBIR的QBIR时,就有广泛的研究。但过于复杂的模型构建以及难以提高的准确率和召回率,一直是难以逾越的鸿沟。要让计算机理解一副图片
,其难度远远大于识别一副图片。

不少学者的工作重点将集中在上述的场景图片检索。譬如,一些特征点(haar、sift、surf、mser等等)技术别用于两两图像的匹配:





这类特征点共同的特点在于,对旋转、缩放、模糊、亮度、仿射变形、视角变换等都具有很强的抵抗性,如下图所示:



前面所述均是针对两两图像之间的识别,如何构建一个规模适中的图片搜索引擎呢?我们的需求应该是类似这样的:



当前日趋成熟的文本搜索引擎,有值得我们借鉴的地方吗?



类似的方式,我们是否也可以对图片搜索采用类似的“视觉词库”的方式呢?



视觉词库和文本中的语料有一个很大的区别,就是图片的信息量以及噪音均极为丰富,因此需要使用聚类的方式对其加以量化,许多极为相似的特征可以用一个“视觉词”来表示:



有了“视觉词”的概念后,图像搜索的问题就转变为K-NN(K近邻查找)问题了,采用诸如K-mean、Hierarchy K-mean、Approximate Kmean等方法,并通过一些文本搜索中优化ranking的方法提高准确率和召回率,这些细节,都在以后的文章中介绍吧。
  • 大小: 53.1 KB
  • 大小: 86.1 KB
  • 大小: 67 KB
  • 大小: 55.6 KB
  • 大小: 59.1 KB
  • 大小: 29.8 KB
  • 大小: 72.7 KB
  • 大小: 44.3 KB
3
2
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics