资料总数量约2400余册,95.8万页。详细目录,共7块硬盘。
已整理修图的交付数据包含3类:
tif格式
这个是最早的文件,后边的两种格式都是基于此转换而来的。主要基于这个来查。但缺点是图片大小较大,不值当耗资源。
jpg格式
鸡肋,但是文件I/O效率与大模型的吞吐效率
pdf格式
原有命名中的图片类型全部没有了。还检查到一些文件损坏无法打开的。
图片格式命名规则:
整体情况:ttif的大小标准并不统一,以后开发时需要注意,还需要再转成统一分辨率。
测试不同模型的性能及结果。
目标:检查是否存在重复或者缺页的情况,将结果返回扫描承包方返工。
几个要点: