vqa

· 딥러닝
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Tsinghua University, Zhipu AI] - GUI에 대한 이해가 뛰어난 18B 사이즈의 Visual Language Model (VLM)을 도입 - low-resolution & high-resolution image encoder를 동시에 사용하고 cross attention - VQA & GUI 벤치마크 둘 다에서 뛰어난 성능이 확인됨 1. Introduction 최근 LLM을 바탕으로 한 agent의 성장세가 가파른 상황입니다. 무려 15만 개의 star를 받은 AutoGPT를 시작으로 LLM의 능력을 다양한 applica..
· Paper Review
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Google Research] LM이 코드를 생성하여 풀이하는 방식으로 VQA 태스크를 처리 기존에도 어떤 이미지, 그리고 이와 관련된 Question Answering 태스크는 꾸준히 발전하고 있었습니다. 하지만 여러 이미지에 대해 annotation을 수행하여 이미지-텍스트 pair를 만드는 것은 분명히 많은 자원을 필요로 하는 일입니다. 본 논문에서는 굉장히 재밌게도, 이 태스크를 LM을 통해 해결합니다. LM이 주어진 문제를 (필요하다면) 여러 작은 문제로 쪼개고, 각 문제를 처리하기 위한 코드를 작성하여 이를 실행시킨 뒤 결과를 취합하는 ..
chanmuzi
'vqa' 태그의 글 목록