面向端到端车牌检测与识别大数据集和基线大头swag|车牌识别数据集全省+数字+字母_车牌号

摘要目前大多数车牌检测和识别方法都是在一个小的，通常不具有代表性的数据集上进行评估，因为没有公开可用的大型不同的数据集。在本文中，我们介绍了一个大型的综合LP数据集CCPD。所有图片均由路边停车场管理公司的工作人员手工拍摄，并附有详细注释。据我们所知，CCPD是迄今为止最大的公共可用LP数据集，拥有超过250k张独特的汽车图像，并且唯一提供顶点位置注释。利用CCPD，提出了一种新的网络模型，该模型可以快速、准确地预测边界框并同时识别相应的LP数字。通过对比实验表明，该模型在精度和速度上都优于现有的目标检测和识别方法。在实际应用中，我们的模型可以直接从相对高分辨率的图像中识别出超过61帧的LP数字，准确率为98.5%。

1 Introduction

车牌检测与识别(LPDR)是智能交通系统的重要组成部分，在交通监控、高速公路收费站、停车场出入口管理等实际监控系统中得到了广泛的应用。为了提高LPDR的速度和精度，人们进行了广泛的研究。

然而，车牌(LP)检测和识别的挑战仍然存在不受控制的条件，如旋转(约20◦起)，雪或雾天气，扭曲，不均匀照明，和模糊。大多数关于LPDR的论文[1、2、3、4、5、6、7、8、9、10]经常在极其有限的数据集(少于3000张独特的图像)上验证他们的方法，因此可能只有在某些受控条件下才能很好地工作。因为人工收集LP图片需要大量的人力，所以LPDR的当前数据集(见表1,2)要么数量不足(少于10k张图像)，要么多样性不足（来自固定的监控摄像头）。然而，不受控制的情况在现实世界中很常见。在这些情况下，一个真正可靠的LPDR系统应该能够很好地工作。为了更好地对LPDR方法进行基准测试，我们展示了我们的中国城市停车数据集(CCPD)。

表1。用于LP检测和CCPD的公开可用数据集的比较。Var表示变化

表2。用于LP识别和CCPD的公开可用数据集的比较。Var表示变化

中国残障人士拥有数百万辆汽车。每位泊车主任(泊车收费主任)每天早上七时三十分至晚上十时，不分天气情况，在同一条街道上工作。对于每一张停车账单，收费员都需要用一台Android手持POS机为该车拍照，并手动标注准确的车牌号码。值得注意的是,由于不确定的位置和拍摄角度的手持设备,以及不同背景不同的灯饰和在不同时间和不同的街道(参见图1)，图片从手持设备中表现出很强的变化。每个图像在CCPD详细注释在几个方面对LP: (一) LP号码。(二)LP包围盒。(三)四个顶点位置。(四)水平倾斜度和垂直倾斜度[11]。(五)LP面积、亮度、模糊程度等其他相关信息。关于这些注释的详细信息将在第3节中解释。

图1所示。来自CCPD的样本图像。上面的每张图片都用它的边界框(黄色边框)和四个顶点位置(四个红点)标记。为了简单起见，这里省略了其他注释。

大多数文献[3,4,5,6,7]将LPDR分为两个阶段(检测·识别)或三个阶段(检测·分割·字符识别)，并逐步处理LP图像。然而，将检测与识别分离开来不利于整个识别过程的准确性和效率。检测方法给出的边界框预测不完善，可能会丢失LP的一部分，导致后续识别失败。此外，不同阶段之间的操作，如提取和调整LP区域的大小来进行识别，往往是由效率较低的CPU来完成的，使得LP识别速度较慢。基于这两个观察结果，我们可以直观地看出LP识别阶段可以利用LP检测阶段提取的卷积特征来识别LP字符。在此基础上，我们设计了一种新颖的路边停车网络结构(RPnet)，实现了单次前向通行的LP检测和识别。值得注意的是，我们并不是第一个设计端到端的定位车牌同时识别车牌的深度神经网络的人。然而，利用区域建议网络和双向递归神经网络，Li等人提出的端到端模型效率不高，在Titan X GPU上完成识别过程需要0.3秒。相比之下，基于更简单、更优雅的架构，RPnet可以在性能较弱的NVIDIA Quadro P4000上以超过60帧的速度运行。

Caltech [13]和Zemris[14]从公路或高速公路上的高分辨率相机上收集了不到700张图像，因此在距离和倾斜角度上几乎没有变化。图像体积小，不足以覆盖各种情况。因此，这些数据集不能令人信服地评价LP检测算法。与以往的数据集不同，Azam等人[10]和Hsu等人[16]指出，对危险条件下LP检测的研究较少，特别是寻找倾角大、模糊、光照弱、天气恶劣等各种条件下的图像。与CCPD相比，这些图像的拍摄距离变化不大，图像数量有限。

当前用于LP识别的数据集通常收集提取的LP图像并标注其对应的LP编号。如表2所示，SSIG[17]和UFPR[3]通过摄像机在道路上拍摄图像。这些照片是在阳光明媚的日子里收集的，很少有倾斜的LPs。在介绍CCPD之前，ReId[15]是最大的LP识别数据集，它提取了76k个LP和注释。然而，从高速公路收费站的监控摄像头中收集到的图像，在倾斜角度、距离和光照方面，里德的图像相对不变。由于缺乏数量或方差，目前的数据集不足以令人信服地全面评价LP识别算法。

2.2 LP检测算法

LP检测算法大致可分为传统方法和神经网络模型。传统的LP检测方法总是利用丰富的边缘信息[18,19,20,21,22,23,24]或背景颜色特征[25,26]。Hsieh等人利用形态学方法显著减少候选框的数量，从而加快了车牌的检测过程。Yu等人提出了一种基于小波变换和经验模态分解分析的鲁棒定位LP方法。在[22]中，作者分析了垂直边缘梯度来选择真正的车牌区域。Wang等人利用级联AdaBoost分类器和投票机制来选择车牌候选区域。在[27]中引入了一种新的局部结构模式来检测板块区域。此外，在观察到LP背景始终呈现规则的色彩外观的基础上，许多作品利用HSI (Hue，饱和度，Intensity)色彩空间滤除LP区域。Deb等人采用HSI颜色模型对90幅图像进行候选区域检测，准确率达到89%。在[26]中，作者还开发了一个颜色检测模块来帮助查找LP区域。

近年来基于区域的卷积神经网络[28]的研究进展，促进了流行的目标检测模型在LP检测问题上的广泛应用[3,4,12,16]。fast - rcnn[29]利用区域建议网络生成高质量的区域建议进行检测，从而更准确、快速地检测到目标。SSD[30]完全消除了提案生成和随后的像素或特征重采样阶段，并将所有计算封装在一个网络中。YOLO[31]及其改进版本[32]帧对象检测作为一个回归问题去空间分离边界框和相关的类概率。

2.3 LP识别算法

LP识别可分为两大类:(一)无分割方法。(二)先分割，然后对分割后的图像进行识别。前者[33,34]通常利用LP字符特征直接提取车牌字符，避免分割，或者将LP传递给光学字符识别(OCR)系统[35]或卷积神经网络[15]来执行识别任务。对于后者，分割前应确定LP边界框并进行形状校正。LP字符的各种特征可以用来分割，如连接成分分析(CCA)[36]和字符特定的极值区域[37]。目前高性能的分割方法通常是训练一个深度卷积神经网络[38]，或者利用SIFT[39]等LP字符的特征。

3 CCPD概述

在本节中，我们将介绍CCPD—一个大型的、多样化的、经过仔细注释的LP数据集。

3.1数据创建和隐私问题

CCPD从中国省会城市的一家城市停车场管理公司收集图像，那里的车主拥有数百万辆汽车。该公司雇佣了800多名PFCs，每个PFCs都收取特定街道的停车费。每一张停车收费单不仅要记录车牌号码、费用、停车时间等，还需要PFC从车的正面或背面拍照作为证明。PFCs基本上没有假期，通常从清晨(早上7点半)工作到午夜(晚上10点)。因此，CCPD有在不同的光照下，不同的天气环境下的图像。此外，由于拍照的唯一要求是包含LP, PFC可以从不同的位置和角度拍摄，甚至会有轻微的震动。因此，CCPD中的图像从不同的位置和角度拍摄，甚至是模糊的。

除了LP编号，CCPD中的每个图像都有许多其他注释。最困难的部分是标注四个顶点的位置。为了完成这个任务，我们首先手工标记了超过10k张图片的四个顶点位置。在此基础上，设计了一种基于小图像的LP区域顶点定位网络，并利用10k图像和一些数据增强策略对其进行训练。然后，在对该网络进行良好的训练后，我们将检测模块与该网络相结合，自动标注每个图像的四个顶点位置。最后，我们雇佣了7名兼职人员在两周内修改了这些注释。有关注释过程的详细信息载于补充材料中。

为了避免居民的隐私被泄露，CCPD删除了每幅图像的LP编号以外的记录，从离散的日子和不同的街道上选取图像。此外，所有的图像元数据，包括设备信息、GPS定位等，都被清除，人脸等隐私区域被模糊。

3.2数据集分割与统计

CCPD提供了超过250k的独特LP图像和详细的注释。每张图像的分辨率为720(宽)×1160(高)×3(通道)。在实际应用中，该分辨率足以保证每张图像的LP是可读的。每个文件的平均大小约为200 kb(整个数据集的总大小超过48.0 gb)。

CCPD中的每幅图像都有以下几个方面的标签:

——LP号码。CCPD中的每个图像只有一个LP。每个LP数字由一个汉字、一个字母和五个字母或数字组成。LP数是识别精度的一个重要指标。

- LP包围框。包围框标签包含包围框左上角和右下角的(x,y)坐标。这两个点可以用来定位LP的最小边界矩形。

-四个顶点位置。该注释包含整幅图像中LP的四个顶点的精确(x,y)坐标。由于LP的形状基本上是四边形，这些顶点位置可以准确地表示LP的边界，用于对象分割。

-水平倾斜程度和垂直倾斜程度。如[11]所示，水平倾斜度是LP与水平线的夹角。二维旋转后，垂直倾斜度为LP的左边框线与水平线的夹角。

-有关LP的其他信息，如面积、亮度和模糊程度。

当前不同的LPDR数据集[10,16,40]通常包含少于5k的图像。将这些具有挑战性的图片分成不同的类别[40]后，有些类别包含的图片少于100张。在此基础上，我们选取了不同条件下的图像，从数百万张LP图像中构建了多个CCPD子数据集。CCPD中的子数据集分布如图2所示。这些子数据集的描述如表3所示。补充资料中提供了这些子数据集的统计数据和样本。

我们进一步添加了CCPD-Characters，其中每个可能的LP字符至少包含1000个提取的图像。CCPD-Characters用于训练神经网络识别分割后的字符图像。利用CCPD中的图像标注，可以自动提取更多的字符图像。

4路旁泊车网(RPnet)

4.1模型

图3所示。我们RPnet的总体结构。它由十个具有ReLU和Batch归一化的卷积层、几个具有Dropout的MaxPooling层和几个由全连接层组成的组件组成。给定一个输入RGB图像，在单次正向计算中，RPnet同时预测LP边界框和相应的LP编号。RPnet首先利用Box回归层来预测边界框。然后，根据每个特征图中包围框的相对位置，RPnet从几个已经生成的特征图中提取roi，将它们合并到相同的宽度和高度(16*8)后，将合并后的特征图提供给后续分类器。

使用神经网络中的一个流行术语“注意”[41]，检测模块作为这个统一网络的“注意”。它告诉识别模块在哪里查找。然后，识别模块从共享特征图中提取ROI，并预测LP值。

Feature Extraction RPnet通过检测模块中的所有卷积层从输入图像中提取特征。随着层数的增加，通道数增加，特征图的大小逐渐减小。后一种特征图具有较高的层次特征提取能力，更有利于LP的识别和边界框的预测。设边界框的中心点x坐标、中心点y坐标、宽度和高度分别为bx、by、bw、bh。设W和H为输入图像的宽度和高度。包围框位置cx、cy、w、h满足:

Multi-layer feature maps for recognition 根据经验，网络中不同层的特征图具有不同的接受域大小[42]。此外，以前的工作，如[43]已经表明，使用来自低层的特征图可以提高语义分割的质量，因为低层捕获更多的输入对象的细节。同样，较低层次的特征图对于LP字符的识别也很重要，就像语义分割中的对象边界一样，LP的面积相对于整个图像来说是非常小的。检测模块完成所有卷积层的计算后，box预测器输出边界框位置(cx,cy,w,h)。对于大小为mxn，带有p个通道的特征层，如图3所示，识别模块在大小为 (m∗h)∗(n∗w)，p个通道的边界框区域内提取特征映射。默认情况下，RPnet在三个底层的末尾提取feature map:第二层、第四层、第六层卷积层。提取的特征图的大小(122 ∗ h) ∗ (122 ∗ w) ∗ 64，(63 ∗ h) ∗ (63 ∗ w) ∗ 160，(33 ∗ h) ∗ (33 ∗ w) ∗ 192。在实际应用中，从较高的卷积层中提取特征图会使识别过程变慢，对提高识别精度几乎没有帮助。在提取这些特征图之后，RPnet利用ROI池层将每个提取的特征转换为一个具有固定空间范围的PH∗PW的特征图(本文中为8∗16)。然后，这三个调整了大小的特征图（分别为8 ∗ 16 ∗ 64, 8 ∗ 16 ∗ 160 和 8 ∗ 16 ∗ 192）被连接到一个 8 ∗ 16 ∗ 416大小的feature map用于LP编号分类。

4.2 Training

RPnet可以在CCPD上进行端到端训练，实现单步向前的LP边界盒检测和LP数字识别。训练包括对检测性能和识别性能选择合适的损失函数，对RPnet端到端训练前的检测模块进行预训练。

Training objective RPnet训练目标可分为定位损失(loc)和分类损失(cls)两部分。设N为训练中一个小批的大小。定位损失(见式(1))为预测框(pb)与地面真值框(gb)之间平滑的L1损失[28]。设ground-truth 7个LP编号为gni(1≤i≤7)，pni(1≤i≤7)表示对7个LP字符的预测，每个LP字符预测pni包含nci浮点数，每个浮点数表示属于特定字符类的可能性。分类损失(见式(2))为交叉损失。通过定位损失和分类损失的联合优化，提取的特征信息将具有更丰富的LP特征信息。实验表明，联合优化这两种损耗可以提高检测和识别性能。

Pre-training detection module 在训练PRnet端到端之前，检测模块必须提供一个合理的边界框预测(cx,cy,w,h)。合理的预测(cx,cy,w,h)必须满足0 < cx,cy,w,h < 1，可以尝试满足w/2≤cx≤1−w/2, h/2≤cy≤1−h/2，从而可以表示有效的ROI，并指导识别模块提取特征图。不像大多数对象检测相关论文(29、31)会在ImageNet[44]上预训练卷积层去使这些层更具代表性,我们从头pre-train检测模块CCPD，因为CCPD数据量足够大,如车牌定位单个对象,参数在 ImageNet上预训练并不一定比从头训练好。在实际应用中，检测模块在训练集上经过300个epoch的训练后，总是给出一个合理的边界框预测。

5 Evaluations

在本节中，我们进行了实验，将RPnet与现有模型在LP检测性能和LP识别性能上进行了比较。此外，我们还探讨了从不同层次提取特征图对最终识别精度的影响。

所有数据都来自我们提出的CCPD，这是迄今为止最大的公开可用的带注释LP数据集。我们所有的培训任务都是在一个GPU服务器上完成的，它有8个CPU (Intel(R) Xeon(R) CPU E5-2682 v4 @ 2.50GHz)， 60GB内存和一个Nvidia GPU (Tesla P100 PCIe 16GB)。我们所有的评估任务都是在8台3.40 GHz Intel Core i7-6700 CPU、24GB RAM和1 Quadro P4000 GPU的台式机上完成的。

5.1 Data preparation

如上面的第3节所述，CCPD-Base由大约200k个独特的图像组成。我们把ccd - base分成两个相等的部分。一个作为默认的训练集，另一个作为默认的评估集。此外，还利用CCPD中的多个子数据集(CCPD- db、CCPD- fn、CCPD- rotate、CCPD- tilt、CCPD- weather、CCPD- challenge)进行检测和识别性能评估。除了级联分类器[45]，实验中使用的所有模型都依赖于GPU，并对训练集进行微调。对于没有默认数据增强策略的模型，我们对每幅图像随机采样4次来增加训练数据，使训练集增加5倍。补充材料中提供了更多的细节。

我们没有在其他数据集上重现我们的实验，因为大多数当前可用的LP数据集[13,14,15]不如CCPD及其数据那样多样化，数据量远小于CCPD。因此，在其他数据集上的检测或识别精度可能不如在CCPD上那么令人信服。此外，我们也没有实现与机器学习无关的方法，比如[8]，因为在实践中，当在大型数据集上评估时，基于机器学习的方法总是表现得更好。

5.2 Detection

检测精度指标在目标检测中，我们遵循标准协议IoU[12]。

当且仅当其与地面真实边界框的IoU超过70% (IoU > 0.7)时，边界框才被认为是正确的。所有的模型都在相同的100k训练集上进行了微调。

我们在检测精度指标中设置了一个比TE2E[12]更高的IoU边界，因为更高的边界可以滤除不完善的边界框，从而更好地评估检测性能。结果如表4所示。级联分类器难以精确定位LPs，在高IoU阈值下性能较差，在处理倾斜LPs时鲁棒性较差。从CCPD-FN检测精度较低的77.3%可以看出，YOLO对相对较小/较大的目标检测性能较差。得益于检测和识别的联合优化，RPnet和TE2E的性能均优于rcnn和YOLO9000。然而，RPnet的识别速度是TE2E的20倍。此外，通过分析SSD预测的边界盒，我们发现这些边界盒对LPs的包裹非常紧密。实际上，当IoU阈值设置大于0.7时，SSD的精度最高。原因可能是检测损失并不是RPnet的唯一训练目标。例如，一个不完全包围框(略小于ground-truth框)可能有助于更正确的LP识别。

表4。每个测试集上最先进的检测模型的LP检测精度(百分比)，AP表示整个测试集的平均精度，FPS表示每秒帧数。

5.3 Recognition

识别精度指标。当且仅当IoU大于0.6且LP数字中的所有字符都被正确识别时，LP识别是正确的。

据我们所知，在我们之前，TE2E[12]是LPDR唯一的端到端网络。除了TE2E和我们的RPnet，在我们的评估中，我们将最先进的检测模型与称为holistici - cnn[15]的最先进的识别模型结合起来，作为与TE2E和RPnet的比较。我们在训练集上对HolisticCNN进行了微调，训练集是根据10万幅图像的地面真实边界框，从相同的图像中提取LP区域。在以类似方式制作的测试集上，Holistic-CNN每秒可以识别200多个小LP区域图像，准确率为98.5%。

如表5所示，这些组合模型可以实现较高的识别速度(36fps)和较高的识别精度(95.2%)。通过SSD对LP边界盒的精确预测，将SSD与整体- cnn相结合的模型对CCPD的平均精度可达95.2%。但是，通过检测模块和识别模块之间共享特征图，RPnet实现了更快的识别率61帧/秒，识别率略高于95.5%。

表5所示。每个测试集的LP识别精度(百分比)。除了TE2E和RPnet，我们还在其他对象检测模型上附加了一个高性能的模型，用于后续的LP识别。HC表示整体cnn[15]。

此外，值得注意的是，几乎所有被评估的模型在CCPD-Rotate、CCPD-Weather、特别是CCPD-Challenge上都表现不佳。这三个子数据集的检测和识别困难的部分原因是在这些条件下训练数据中(LPs)的缺乏。它们的低性能部分表明，通过将LPs划分为不同的子类别，CCPD可以更全面地评估LPDR算法。

5.4 Model analysis

在CCPD上评价RPnet产生的检测和识别结果样本如图4所示。为了更好地理解RPnet，我们进行了一些控制实验来检验每一层是如何影响性能的。对所有RPnet的变体在实验中，我们使用与原始RPnet相同的设置和输入大小，但指定的更改除外。

图4所示。利用RPnet模型对CCPD进行检测和识别。每幅图像是从原分辨率720(宽)×1160(高)×3(通道)中提取的较小的车牌面积。

识别模块中较高的层数我们在RPnet Ci中编号10个卷积层，0≤i≤9。因此，第4节中描述的原始RPnet可以表示为RP135，因为它从C1、C3、C5中提取特征图进行LP字符识别。类似地，我们实现了RP1、RP3和RP5，其中只从一个特定层提取特征映射。结果如图5 (a)所示，在这四种模型中，RP1的准确率最低，仅为93.5%，其他模型的准确率均高于97.5%。从RP1到RP5，利用较高的层进行特征提取，识别精度提高，拟合所需的时间减少。使用单层C5进行特征提取，RP5的精度几乎与RP135相同。虽然较低的层次可以提高语义分割的质量，但较高的阶特征似乎对识别任务更有用。

图5所示。从不同层或多个层提取特征图的性能分析。FPS表示每秒帧数。

从更多的层中提取特征不一定能提高精度基于第六卷积层C5可能对识别精度影响更大的认识，我们训练了两个新的模型RP35和RP12345进行性能分析，这两个模型也利用了C5，并且具有不同的层数进行特征提取。如图5 (b)所示，从RP5到RP35到RP135，用于特征提取的层数增加，可以达到的识别精度也增加。然而，采用五层特征提取，RP12345不仅大大增加了识别时间，而且降低了识别精度。然而，采用五层特征提取，RP12345不仅大大增加了识别时间，而且降低了识别精度。从太多的层中提取特征而没有足够的神经元进行分析可能会导致泛化不良。

6 Conclusions

本文提出了一种大规模、多样化的车牌数据集CCPD和一种用于统一车牌检测与识别的新型网络结构RPnet。对CCPD中的图像进行了细致的注释，并根据LPs的不同特点将其分类。庞大的数据量(250k独特的图像)、数据多样性(8个不同类别)和详细的注释使CCPD成为一个有价值的数据集，用于对象检测、对象识别和对象分割。对CCPD的广泛评估表明，我们提出的RPnet在速度和精度上都优于最先进的方法。目前，RPnet已在路边停车服务方面投入使用。它的准确性和速度大大超过了其他现有的商业车牌识别系统。

实践

各参数依次是：照片/添加的文字/左上角坐标/字体/字体大小/颜色/字体粗细

THE END

面向端到端车牌检测与识别大数据集和基线大头swag

面向端到端车牌检测与识别大数据集和基线大头swag

达人特训营第三期基于addle的车牌识别人工智能tudio

pytorch从零开始，利用yolovcrnnctc进行车牌识别水果好好吃哦

深度学习车牌识别车牌识别训练模型mobcafc的技术博客