Video Question Answering via Hierarchical Spatio-Temporal Attention Networks

By Kosuke Futamata, Tue 15 May 2018, in category Cv

JICAI-17, VQA

1. どんなもの?

VQA(Video Question Answering)の研究. 質問に関連する重要な動画フレームの連続を学習するHierachical Spatio-Temporal Attention Networksを提案.

image1

2. 先行研究と比べてどこがすごいの?

先行研究では画像と質問文のペアから回答を生成するVisual Question Answeringの研究が主であるが,本研究では動画と質問文のペアから回答を生成する手法を提案. 動画フレームの連続性を考慮するために,Hierachical Spatio-Temporal Attention Networksを提案している.

3. 技術や手法の"キモ"はどこにある?

spatio-temporal attention network learning framework

image2

4. どうやって有効だと検証した?

5. 議論はあるか?

6. 次に読むべき論文はあるか?

論文情報・リンク

-Zhou Zhao, Qifan Yang, Deng Cai, Xiaofei He and Yueting Zhuang. Video Question Answering via Hierarchical Spatio-Temporal Attention Networks. Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence.

Articles connexes

Thu 02 August 2018
Stacked Attention Networks for Image Question Answering
Mon 23 July 2018
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering