听孙雷博士论文答辩记录

发表于 2015-03-21 更新于 2021-08-20 分类于速记阅读次数：阅读次数：

任务目标：自然场景图片中的文字提取

答辩人：孙雷

答辩时间：2015.3.21早上9：00

答辩老师：霍强，李厚强，俞能海，汪勇，刘老师，还有另外一位老师

下面听答辩的学生有董政，我，研一的联合培养的记录员师兄，还有一位从ubc回国到合工大任教的博士师兄。

主要工作：

1.提出CER：Color-enhanced ER(Extremal Region)

优点：相比MSER，对低对比度的图像很鲁棒

相关背景：

候选文字区域提取：ER

MSER：最大平稳极值区域

CER：将MSER中的极值改为一个特定阈值，使得对低对比度图像更鲁棒

2.提出“分治”的方法来归类特征，使得训练速率大幅提升

具体方法：

a.将图片按照字体大小和个数，分为Thin（比较瘦长的字符，如i，t，一般是一个字符），Square（比较方的字符，一般是一到两个字符），Long（水平方向上比较长，一般是多个字符）三大类

b.Square和Long下面根据训练时间长短又细分为几类

c.每个类之间可以互补，解决有些类训练样本不足的问题

d.训练时正样本使用“假数据”，即一部分不是从自然场景中获取的数据，而是使用标准图像来做正样本

答辩老师argue的地方：

a.可以将图片的横纵坐标作为参数，进行机器学习，而不是使用分治的方法，将分类固定下来（即老师说的“Hard”），转Hard为Soft

b.或许可以使用CNN，达到更好的效果

(我的一点看法：其实“分治”这种方法对实际应用来说，是一个很好的解决方案，既缩短了时间，又不至于太麻烦；而几位答辩老师却认为这是在学术上不严谨或者说这种方法不是最佳方法，这也体现了学术和工程的分歧。)

3.使用浅层神经网络训练，得到了与深度神经网络类似的性能

为什么不使用深度神经网络：

a.不平衡分类：有的类数据多，有的类数据少，而深度神经网络一般解决平衡分类的问题

b.歧义性：有的特征即可以认为是正样本，也可认为是负样本，如图片中的“I”，可以认为是字符“I”，也可能是砖块之间的缝隙

4.算法缺陷：

a.对竖着的文字和环形文字暂时无法处理

b.只是改进的了MSER，没有从根本上解决ER的问题

c.对部分艺术字处理不好，还有些艺术字没有加入到训练样本中

5. 听不懂乱记的东西

a.采用了组件树

（end）