数据集¶
当前使用了两种数据集进行测试:
- 定位数据集(
3
类) VOC 07
数据集(20
类)
定位数据集¶
参考:[数据集]Image Localization Dataset
{'cucumber': 63, 'mushroom': 61, 'eggplant': 62}
解析¶
下载数据集后,解压到py/data
目录,得到training_images
,其格式如下:
。。。
cucumber_4.xml eggplant_35.jpg mushroom_20.xml mushroom_7.jpg
cucumber_50.jpg eggplant_35.xml mushroom_21.jpg mushroom_7.xml
cucumber_50.xml eggplant_36.jpg mushroom_21.xml mushroom_8.jpg
cucumber_51.jpg eggplant_36.xml mushroom_22.jpg mushroom_8.xml
cucumber_51.xml eggplant_37.jpg mushroom_22.xml mushroom_9.jpg
cucumber_52.jpg eggplant_37.xml mushroom_23.jpg mushroom_9.xml
。。。
每个图像都有对应的标注文件,使用parse_location.py
将两者分离
$ cd py/lib/data
$ python parse_location.py
最后在/py/data/location_dataset
目录下得到imgs
和annotations
文件夹
├── annotations
│ ├── cucumber_10.xml
│ ├── cucumber_11.xml
│ ├── cucumber_12.xml
。。。
。。。
└── imgs
├── cucumber_10.jpg
├── cucumber_11.jpg
。。。
。。。
VOC 07¶
{'bus': 229, 'person': 4690, 'boat': 290, 'dog': 510, 'horse': 362, 'aeroplane': 306, 'chair': 798, 'bottle': 505, 'cat': 376, 'diningtable': 215, 'motorbike': 339, 'bird': 486, 'pottedplant': 514, 'bicycle': 353, 'sheep': 257, 'cow': 259, 'tvmonitor': 324, 'car': 1250, 'train': 297, 'sofa': 248}
相关实现文件``