Image Caption Dataset
Goals: 1.数据量要求 2.标注的标准 3.标注的手段 Microsoft COCO Captions: 使用Amazon的Mechanical Turk(AMT)收集数据,再对数据进行标注。 “Each of our captions are also generated using human subjects on AMT.” 一些其他信息:(Caption Evaluation Server): 好像是可以评价caption的生成质量,但是应该是仅仅针对于使用COCO数据进行的,所以这一部分就不分析了。 文中(section 3)包含了几种不同评价方法的介绍: BLEU ROUGE METEOR CIDEr 在进行Evaluation之前的 Tokenization and preprocessing中: 使用了工具来添加caption标记: Stanford PTBTokenizer in Stanford CoreNLP tools (version 3.4.1) 这个工具是模仿的是peen treebank3. 其参考文献和相关链接如下: “The Stanford CoreNLP natural language processing toolkit,” in Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 2014, pp. 55–60. related-link ...