今年比赛增加两个尝鲜项目:
I: Object detection from video 视频中的目标检测,简称VID
今年有新的检测任务:视频中的目标检测,类似目标检测任务的风格。该任务有30个基本类别,是目标检测任务200个基本类别的子集。这些类别都是精心选择的,考虑到不同因素,如运动类型,视频背景干扰,平均目标数目等。所有类别在每个帧都完全打标签。我们使用了Datatang的服务来标记目标框。标记片段见(http://vision.cs.unc.edu/ilsvrc2015/ui/vid)
30个基本类别是:
n02691156 1 airplane n02419796 2 antelope n02131653 3 bear n02834778 4 bicycle n01503061 5 bird n02924116 6 bus n02958343 7 car n02402425 8 cattle n02084071 9 dog n02121808 10 domestic_cat n02503517 11 elephant n02118333 12 fox n02510455 13 giant_panda n02342885 14 hamster n02374451 15 horse n02129165 16 lion n01674464 17 lizard n02484322 18 monkey n03790512 19 motorcycle n02324045 20 rabbit n02509815 21 red_panda n02411705 22 sheep n01726692 23 snake n02355227 24 squirrel n02129604 25 tiger n04468005 26 train n01662784 27 turtle n04530566 28 watercraft n02062744 29 whale n02391049 30 zebra
对每个视频帧 fi,算法产生一系列标记(fi, ci, si, bi),其中ci 为类标签 ,si 为置信率, bi 为目标框。该集合每帧都包含30个目标类别中的某个实例。评价准则和目标检测任务相同,未标记的目标将被惩罚,重复检测也会被惩罚。在大多数目标类别中获得最高准确率的将会胜出。
II: Scene classification 场景分类
该尝鲜赛是由MIT Places组(Aditya Khosla, Bolei Zhou, Agata Lapedriza, Antonio Torralba and Aude Oliva)组织的。如果做比赛时觉得哪里不爽,随时骚扰Aditya Khosla (khosla@mit.edu)。
如果你写尝鲜赛结果报告,或者使用了Places2数据集,记得引用:
- Bolei Zhou, Aditya Khosla, Agata Lapedriza, Antonio Torralba and Aude Oliva.
Places2: A Large-scale Database for Scene Understanding. Arxiv, 2015. (coming soon)
这个比赛的目的是识别照片中描述的场景类别。该任务数据来源于Places2数据集(包括1000w+图像,属于400+ 不同场景类别)。特别地,比赛数据分为810w训练图像和2w张验证图像,38.1w张测试图像,均属于401个场景类别。注意不同类别图像分布不均匀(从4000张到3w张),正如这些场景在现实中出现的频率。
对每张图片,算法应产生5个场景类别(按照置信率降序排列)的列表,标签质量将使用图片最佳匹配真实标签评估。允许一个算法对一张图识别多种场景类别,因为很多环境有多个标签(一个酒吧也是一个参观),人也常常用不同词语描述同一个地方(森林,树丛)。
对每张图,算法产生5个标签lj, j=1, 2, 3, 4, 5 , 而该图的真实标签是gk, k = 1, 2, 3, ...n, 则该算法的偏差公式:
e=1n⋅∑kminjd(lj,gk)
其中d(x, y) = (x == y)?0:1,总偏差是针对整个测试图片计算平均偏差。目前比赛版本n均为1。