1. どんなもの?
VQA(Video Question Answering)の研究.
質問に関連する重要な動画フレームの連続を学習するHierachical Spatio-Temporal Attention Networksを提案.
2. 先行研究と比べてどこがすごいの?
先行研究では画像と質問文のペアから回答を生成するVisual Question Answeringの研究が主であるが,本研究では動画と質問文のペアから回答を生成する手法を提案.
動画フレームの連続性を考慮するために,Hierachical Spatio-Temporal Attention Networksを提案している.
3. 技術や手法の"キモ"はどこにある?
spatio-temporal attention network learning framework
4. どうやって有効だと検証した?
5. 議論はあるか?
6. 次に読むべき論文はあるか?
論文情報・リンク
-Zhou Zhao, Qifan Yang, Deng Cai, Xiaofei He and Yueting Zhuang. Video Question Answering via Hierarchical Spatio-Temporal Attention Networks. Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence.
Articles connexes
- Thu 02 August 2018
- Stacked Attention Networks for Image Question Answering
- Mon 23 July 2018
- Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering