数据集

当前使用了两种数据集进行测试:

  • 定位数据集(3类)
  • VOC 07数据集(20类)

定位数据集

参考:[数据集]Image Localization Dataset

{'cucumber': 63, 'mushroom': 61, 'eggplant': 62}

解析

下载数据集后,解压到py/data目录,得到training_images,其格式如下:

。。。
cucumber_4.xml   eggplant_35.jpg  mushroom_20.xml  mushroom_7.jpg
cucumber_50.jpg  eggplant_35.xml  mushroom_21.jpg  mushroom_7.xml
cucumber_50.xml  eggplant_36.jpg  mushroom_21.xml  mushroom_8.jpg
cucumber_51.jpg  eggplant_36.xml  mushroom_22.jpg  mushroom_8.xml
cucumber_51.xml  eggplant_37.jpg  mushroom_22.xml  mushroom_9.jpg
cucumber_52.jpg  eggplant_37.xml  mushroom_23.jpg  mushroom_9.xml
。。。

每个图像都有对应的标注文件,使用parse_location.py将两者分离

$ cd py/lib/data
$ python parse_location.py

最后在/py/data/location_dataset目录下得到imgsannotations文件夹

├── annotations
│   ├── cucumber_10.xml
│   ├── cucumber_11.xml
│   ├── cucumber_12.xml
。。。
。。。
└── imgs
    ├── cucumber_10.jpg
    ├── cucumber_11.jpg
。。。
。。。

VOC 07

参考:[数据集]PASCAL VOC 2007

{'bus': 229, 'person': 4690, 'boat': 290, 'dog': 510, 'horse': 362, 'aeroplane': 306, 'chair': 798, 'bottle': 505, 'cat': 376, 'diningtable': 215, 'motorbike': 339, 'bird': 486, 'pottedplant': 514, 'bicycle': 353, 'sheep': 257, 'cow': 259, 'tvmonitor': 324, 'car': 1250, 'train': 297, 'sofa': 248}

相关实现文件``