Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

1. どんなもの？

物体検出によるbottom-up attentionと重み付き平均を用いたtop-down attentionの両方を組み合わせることにより，Image CaptioningとVisual Question Answeringの両方のタスクにおいてSOTAを達成．

2. 先行研究と比べてどこがすごいの？

従来のImage captioningやVideo Question Answeringのタスクではほとんどの場合，逐次生成されるキャプションの結果や質問と画像のpixel wise feature vectorによる重み付き平均によるtop-down型のvisual attentionを用いる．一方で本研究では，画像のpixel wise feature vectoreではなく，Faster R-CNNなどの物体検出アルゴリズムを用いたbottom-up attentionの出力結果に対してtop-down attentionを適用している．

3. 技術や手法の"キモ"はどこにある？

bottom-up attentionの出力結果をtop-down attentionに適用している．物体検出アルゴリズムとして知られるFaster R-CNNの出力結果である部分画像に対してmean-pooled convolutionを適用したfeature vectoresに対してattentionを貼る．さらに，これらfeature vectoresの平均を取ったのをNetworkの入力として用いる．