為鼓勵各地科研團隊攻克AI「多模態」理解的難題,全球計算機視覺頂會CVPR(Conference on Computer Vision and Pattern Recognition)從2015年起連續6年舉辦VQA挑戰賽,吸引來自各地的互聯網企業、高等學府及科研單位參與,合力打造國際上規模最大、認可度最高的VQA資料集,每年挑戰賽包含超過20萬張真實照片,共110萬條題目。在測試中,參賽團隊的AI模型需要融合複雜的電腦視覺及自然語言技術,首先掃描及判斷所有圖像資訊,結合對文本問題的理解,利用「多模態」技術學習圖文的關聯性,最後根據常識及推理回答問題。