基于Spark的图像相似性比对加速算法(5)

Spark的兼容性很强，可以运行在各种平台之上，例如Hadoop、Mesos或是云上，也可以独立计算。Spark也可以接受多种多样的数据源，包括HDFS、Cassandra、HBase和S3。

Spark集群加载文件可以使用HDFS系统，也可以从本地文件读取。Spark使用弹性分布数据集RDD(Resilient Distributed DataSets)处理输入数据，RDD上的所有运算都是基于分区的(Partition)。分区是逻辑上的概念，在实际存储管理模块中的表示则是数据块(block)，数据块的大小默认为64MB，分区与数据块是一一对应的。

任何一个文件、目录或是block的基本信息(元数据)，都会被处理为对象存储在集群的主节点的内存中。因此输入一个超大文件(指大小达到MB、GB甚至是TB级别的文件)会被分割(Split)为多个数据块进行存储，生成多个对象。而输入成千上万的小文件(文件小于block的大小，即小于64MB)，不仅会使block的利用率降低，而且会生成大量对象，占用主节点的内存。虽然Hadoop和Spark都提供了一些处理大批量小文件的方案，例如Hadoop的Hadoop Archive、Sequence file和CombineFileInputFormat以及Spark的SparkMultiTool等工具，本质上还是将小文件合并为大文件，增加系统开销，因此Hadoop和Spark适用于大规模文件流式访问。

1。3 全文篇章结构

本文具体的结构如下：

第一章是本文的绪论部分。本章介绍了本文的背景，对本文的研究意义和研究目标进行了简要的阐述，并且对与本文相关的关键技术，如图像处理技术、KNN模式识别方法以及Spark大数据处理技术等进行了介绍，最后对本文的内容组织结构进行了描述。

第二章是对本文涉及领域的介绍。本章介绍了图像处理、模式识别以及大数据等领域的研究发展现状。

第三章是对本文研究的算法的总体设计的说明，本章说明了算法的整体设计思路和算法的主要模块设计。

第四章是对本文研究的算法的详细设计的说明，本章说明了全局结构和变量、主模块以及子模块的详细设计。

第五章是对根据算法设计的实验的说明，本章说明了实验环境、实验数据集、实验测度、实验的具体步骤以及实验的结果，并对实验结果进行的分析。

第六章是针对实验结果得出结论，总结在研究本文过程中的不足，并对未来工作提出的展望和改进。

2 研究发展现状

2。1 图像处理

2。2 集装箱箱号识别

2。3 模式识别

2。4 大数据处理技术

算法模块与定义

3。1 总体设计

与对背景简单、字符规格统一的集装箱图片进行箱号识别的过程相比，对自然场景下的集装箱箱体图片的处理过程中存在很多新的困难。由于拍摄环境变化多端，光线有明有暗，如何在晦暗不明的图片中准确获得字符信息是一大难点；集装箱箱体有很多零部件，加上拍摄角度不固定，原本规格一致的字符在图片中的远近高低和尺寸大小都各不相同，如何在背景复杂的图片中定位到需要的字符区域是一大难点；校验位只能检测字符的值是否正确，但不具有检测字符排列顺序的功能，而在自然环境下拍摄出来的图片，字符看起来排列得整整齐齐，却常常伴有不同程度的倾斜甚至波动，如何获得字符排列的正确顺序是一大难点；字符的模式识别是基于大规模训练样本的，在样本选取具有多样性的条件下，样本的规模越大，识别准确率越高，但是样本规模的扩充会减慢识别速度，如何在样本规模不断增长的情况下，仍能保持识别速度亦是一大难点。来*自~优|尔^论:文+网www.youerw.com +QQ752018766* 基于Spark的图像相似性比对加速算法(5):http://www.youerw.com/jisuanji/lunwen_84852.html