Modular VQA

<Multi-modal> Modular Visual Question Answering via Code Generation

2023.06.14· Paper Review

최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Google Research] LM이 코드를 생성하여 풀이하는 방식으로 VQA 태스크를 처리 기존에도 어떤 이미지, 그리고 이와 관련된 Question Answering 태스크는 꾸준히 발전하고 있었습니다. 하지만 여러 이미지에 대해 annotation을 수행하여 이미지-텍스트 pair를 만드는 것은 분명히 많은 자원을 필요로 하는 일입니다. 본 논문에서는 굉장히 재밌게도, 이 태스크를 LM을 통해 해결합니다. LM이 주어진 문제를 (필요하다면) 여러 작은 문제로 쪼개고, 각 문제를 처리하기 위한 코드를 작성하여 이를 실행시킨 뒤 결과를 취합하는 ..

티스토리툴바