漫谈计算机视觉

grunt1223

浏览: 419740 次
性别:
来自: 杭州

最近访客更多访客>>

yymm_1234

lazy_luo

asdface

cnyoky

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

图像识别、机器学习、数据挖掘

搜索引擎 IBM 数据结构工作

从输入图象到信息获取之间存在着巨大的认知空白，其间需要经过一系列十分复杂的信息处理和理解过程。想象一下，在火车站，我们可以从茫茫人群中精确地找出要迎接的伙伴，这远非现在的机器学习、搜索引擎所能解决的。这再次证明人类视觉系统的强大。对人类视觉过程本质的认识，乃是揭开机器视觉进步的关键。对计算机而言，所有的输入均是矩阵，机器视觉的目的，就是要从这些矩阵中获取有用的信息。

计算机对图像内容的识别，按照难度、应用场景、所使用方法的不同，可以划分为三类：
1、近重复图片检索，主要是查找同源图片的不同版本（光照、旋转、缩放、模糊、logo、水印等、裁剪）
2、场景图片检索，又称物件识别检索，主要是查找在不同场景中出现同一物体，主要需要克服遮挡、仿射、视角改变等效应
3、同类物体检索，即平时所说的CBIR系统，往往需要一些训练、学习过程。

下图很好地说明了这三类检索的区别：

上述1的近重复图片检索，采用edge histogram、scalable color等mpeg-7规范产生的图像签名来构建系统，辅以locality sensitive hash等相似检索的数据结构，能够达到不错的效果，可以用于版权图片保护等应用。

上述3的同类物体检索，自从IBM最早提出基于CBIR的QBIR时，就有广泛的研究。但过于复杂的模型构建以及难以提高的准确率和召回率，一直是难以逾越的鸿沟。要让计算机理解一副图片
，其难度远远大于识别一副图片。

不少学者的工作重点将集中在上述的场景图片检索。譬如，一些特征点（haar、sift、surf、mser等等）技术别用于两两图像的匹配：