导论部分：

课程内容：

学习目标：

团队与讲师介绍：

理论部分：图像识别与人工智能

从图像识别说起：

图像识别面临的挑战：

语义鸿沟（Semantic Gap）现象

高层的认知和底层的视觉特征之间的冲突：

人可以很轻易地认出它们是不同的，但是计算机会认为它们极其相似甚至认为是相同的。

我们要想方设法克服语义鸿沟。

以上可以理解为：相同的视觉特性，不同的语义概念；此外，还有一类鸿沟是不同的视觉特性，相同的语义概念。

传统的图像识别方法：

上面的例子中，测量空间是直观的图片；特征空间是使同一类目标的特征距离尽可能小，不同类目标的特征，距离要尽可能大；类别空间即目标的分类。

早期图像识别技术（1990-2003）

处理过程：

主要用到的四大技术：

全局特征提取：用全局的视觉底层特性统计量表示图像

全局特征示例：

颜色特征方面：不管是rgb还是hsv，都有相似相近性
纹理特征方面：有规则与不规则之分
形状特征方面：注意边缘的增强

全局特征提取：图片被表示成向量

全局特征提取时，我们可以把各类特征连接起来，形成更高维的特征向量。

然后一个特征向量被用来唯一地描述一个图像。

在特征空间里面，我们希望：具有相近类别的语义图像的特征向量能够尽可能的相似，不同语义类别的图像特征向量的相似度尽可能小。

特征变换：提高特征表示性能

空间变换要实现：

相似的物体→距离近
不相似的物体→距离远

特征变换的作用是：让相似的目标/物体的特征距离尽可能近（把单个特征投影到新的空间甚至新的特征向量，然后新的特征向量能让相似的物体距离尽可能近，不相似的物体距离尽可能远），所以特征变换的作用是把一个高维特征变为另一个高维特征

manifold learning/embedding：
映射为低维空间下的向量表示，常用方法如PCA、MDS、ISOMAP、LLE、Laplacian Eigenmap（它们用于特征降维/变换）

索引技术：

穷举搜索：
效率太低，时间复杂度太高
改进方式：
牺牲精度，寻找近似的最近邻居
常用方法：
KD-Tree，LSH（Locality Sensitive Hashing）

索引技术示例：二进制哈希

该技术减少了特征存储的空间，以及特征相似度计算的复杂度

对于每一个图像都能提取出图像特征：通过哈希编码将其转换为二进制码（该过程不是二进制量化，而是有一个学习过程）。学习准则是原来相似的信息，在二进制码里面距离也应该近。这样有了二进制码以后，我们就可以快速地计算查询图像的相似图像（因为计算机里所有的信息都是二进制码的形式保存的），我们只需要进行一个异或操作，就能够计算出两个图像的相似度。这里一个二进制码，只需要一个位就能存储，因此该技术减少了特征存储的空间，以及特征相似度计算的复杂度。

相关反馈：

如搜索apple，会出现苹果和苹果手机两类结果。接着搜索引擎会根据用户的点击行为来确定用户的搜索意图。

即：Human in loop