Stacked Attention Networks for Image Question Answering

By Kosuke Futamata, Thu 02 August 2018, in category Cv

VQA

1. どんなもの?

Visual Question Answerigに用いられるStacked Attention networkを提案。

image1

2. 先行研究と比べてどこがすごいの?

本論文で提案しているStacked Attention Mechanismを用いることで、VQAのタスクにおいてSOTAを達成。 また、本論文の投稿時にはAttention mechanismをVQAのタスクに適用したものとしては初。

3. 技術や手法の"キモ"はどこにある?

Stacked attention mechanismによって画像内の物体と質問文のアライメントを行う。 Attentionをスタック構造にすることによって画像内の物体への注意がよりシャープになるため、より特定の物体に注意を向けることが容易になっている。

ネットワークの構造は主に3つに分解される。 1つ目はImage model, 2つ目はQuestion Model,そして3つ目がStacked Attention Networksである。 Image modelはVGGNetを用いて画像の特徴量を抽出するのに用いられる。 Question modelはLSTMまたはCNNを用いてQuestionをEncodeする。

Stacked Sttention Networksは画像特徴量と質問文の特徴量を用いて画像に対するAttentionを得る。

image1 image1 image1 image1 image1

4. どうやって有効だと検証した?

データセット

評価

image1 image1 image1 image1

人間を除く全ての比較対象と比べ提案手法が一番精度が良かった。

5. 議論はあるか?

image captioningやmultimoda NMTの領域にstacked attentionを適用するのも良さそう。

image1

解答に失敗した例を見るとほとんどの場合、質問文に対するvisual attentionの画像内領域は正しい。

image1

論文情報・リンク

Articles connexes

Mon 23 July 2018
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
Tue 15 May 2018
Video Question Answering via Hierarchical Spatio-Temporal Attention Networks