Stacked Attention Networks for Image Question Answering

1. どんなもの？

Visual Question Answerigに用いられるStacked Attention networkを提案。

2. 先行研究と比べてどこがすごいの？

本論文で提案しているStacked Attention Mechanismを用いることで、VQAのタスクにおいてSOTAを達成。また、本論文の投稿時にはAttention mechanismをVQAのタスクに適用したものとしては初。

3. 技術や手法の"キモ"はどこにある？

Stacked attention mechanismによって画像内の物体と質問文のアライメントを行う。 Attentionをスタック構造にすることによって画像内の物体への注意がよりシャープになるため、より特定の物体に注意を向けることが容易になっている。

ネットワークの構造は主に３つに分解される。 1つ目はImage model, 2つ目はQuestion Model,そして3つ目がStacked Attention Networksである。 Image modelはVGGNetを用いて画像の特徴量を抽出するのに用いられる。 Question modelはLSTMまたはCNNを用いてQuestionをEncodeする。

Stacked Sttention Networksは画像特徴量と質問文の特徴量を用いて画像に対するAttentionを得る。