By Kosuke Futamata, Thu 02 August 2018, in category Cv
Visual Question Answerigに用いられるStacked Attention networkを提案。
本論文で提案しているStacked Attention Mechanismを用いることで、VQAのタスクにおいてSOTAを達成。 また、本論文の投稿時にはAttention mechanismをVQAのタスクに適用したものとしては初。
Stacked attention mechanismによって画像内の物体と質問文のアライメントを行う。 Attentionをスタック構造にすることによって画像内の物体への注意がよりシャープになるため、より特定の物体に注意を向けることが容易になっている。
ネットワークの構造は主に3つに分解される。 1つ目はImage model, 2つ目はQuestion Model,そして3つ目がStacked Attention Networksである。 Image modelはVGGNetを用いて画像の特徴量を抽出するのに用いられる。 Question modelはLSTMまたはCNNを用いてQuestionをEncodeする。
Stacked Sttention Networksは画像特徴量と質問文の特徴量を用いて画像に対するAttentionを得る。
人間を除く全ての比較対象と比べ提案手法が一番精度が良かった。
image captioningやmultimoda NMTの領域にstacked attentionを適用するのも良さそう。
解答に失敗した例を見るとほとんどの場合、質問文に対するvisual attentionの画像内領域は正しい。