Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

By Kosuke Futamata, Mon 23 July 2018, in category Cv

CVPR2018, IDG, VQA

1. どんなもの?

物体検出によるbottom-up attentionと重み付き平均を用いたtop-down attentionの両方を組み合わせることにより,Image CaptioningとVisual Question Answeringの両方のタスクにおいてSOTAを達成.

image1

2. 先行研究と比べてどこがすごいの?

従来のImage captioningやVideo Question Answeringのタスクではほとんどの場合,逐次生成されるキャプションの結果や質問と画像のpixel wise feature vectorによる重み付き平均によるtop-down型のvisual attentionを用いる. 一方で本研究では,画像のpixel wise feature vectoreではなく,Faster R-CNNなどの物体検出アルゴリズムを用いたbottom-up attentionの出力結果に対してtop-down attentionを適用している.

3. 技術や手法の"キモ"はどこにある?

bottom-up attentionの出力結果をtop-down attentionに適用している. 物体検出アルゴリズムとして知られるFaster R-CNNの出力結果である部分画像に対してmean-pooled convolutionを適用したfeature vectoresに対してattentionを貼る. さらに,これらfeature vectoresの平均を取ったのをNetworkの入力として用いる.

image2

bottom-up attentionを用いる以外はImage Captioning及びVisual Question AnsweringのNetworksに変わった構造は見られない.

image2

image2

4. どうやって有効だと検証した?

データセット

比較対象

Image Captioning

ResNetはvisual attentionにResNet101を用いて,最終層のconv layerの出力を10*10にリサイズ. 通常のvisual attentionと同様に,pixel-wiseのfeature vectorに対してattentionを貼る.

評価

image5

image6

Image Captioningのタスクでは全ての評価指標において,現SOTAのモデルを上回った. VQAのタスクでは,2017 VQA challengeに投稿された全てのモデルを上回る正解率であった.

5. 議論はあるか?

image5

image5

6. 次に読むべき論文はあるか?

論文情報・リンク

Articles connexes

Thu 26 July 2018
Rich Image Captioning in the Wild
Mon 02 July 2018
SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text
Mon 11 June 2018
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
Thu 02 August 2018
Stacked Attention Networks for Image Question Answering
Tue 15 May 2018
Video Question Answering via Hierarchical Spatio-Temporal Attention Networks