相似度去重最佳参数实验

实验指标:

  1、误报尽量少
  2、漏报尽量少

实验数据:

  数据一:约156组相似照片 共计500张相似图片 (误差2之内即154-156组)
  数据二:约800张不相似的图片 (可能含有4组左右相似照片)

一、误报率测试,使用数据一作为实验数据,二进制对比:

Alt text

结论:低误报可取(10*10,海明距离小于等于4或者5)、(11*11,海明距离小于等于5或者6)、(12*12,海明距离小于等于6)

二、漏报率测试,使用数据二作为实验数据,二进制对比:

Alt text
取相似分组及不同图片均接近154-156之间的。

结论:由 11*11_6、11*11_5或者12*12_6 由误报率可看出,12*12_6的误报率更低。

比较优质的参数组合为:
  11*11_5、12*12_6

结论:

  方案一:两次dct后,取左上角11*11,2进制模式保存哈希,以5作为海明距离阈值。
  方案二:两次dct后,取左上角12*12,2进制模式保存哈希,以6作为海明距离阈值。

  
  两张不相似图片,取11*11可能海明距离为5,但取12*12海明距离为13,因为两张图片的低频信息不同,当扩大计算区域使,其均值受到较大影响,进而大幅度影响到感知哈希值。
  真正相同的两张图片,取不同的范围计算出来的哈希中间的海明距离应当需要满足阈值。
  故:
  做初步过滤处理,可选方案一、或者方案二。
  若需要做精确过滤,可组合方案一、二。

附:使用方案二对11354张照片做测试的结果:
  正确聚类组数1273,99组错误,总1362.正确率:93.44%,8129张独立图片。
  
  考虑计算量问题,选取10*10的方案。