'paper review' 태그의 글 목록 (26 Page)

<PEFT> LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model

2023.05.07· Paper Review

최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ LLaMA-Adpater의 두 번째 버전. 기존과 달리 이미지까지 더 잘 처리할 수 있는 multi-modality 보유 배경 어떻게 하면 LLM을 instruction follower로 만들 수 있을지, 즉 어떻게 instruction tuning을 잘 할 수 있을지에 대해 많은 관심이 쏠리고 있다. 이전에 LLaMA-Adapter와 같은 모델도 굉장히 효율적인 tuning 방법론을 제시했는데 이를 더욱 발전시킨 모델을 제시한다. V1과 비교했을 때 가장 큰 차이점은 이미지 관련 태스크도 굉장히 잘 처리할 수 있다는 것이다. 컨셉 1. bias tuning of linear layers V..

<Evaluation> Evaluating Verifiability in Generative Search Engines

2023.05.02· Paper Review

최근에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ 최근 생성 AI를 이용한 다양한 검색 엔진이 존재한다. 이 검색 엔진의 검색 결과에 대한 신뢰도를 검증하고 엔진별로 비교한 논문. 배경 ChatGPT의 등장 이후로 LLM 기반의 검색 서비스가 핫하게 떠오르고 있다. 예를 들어 New Bing의 경우 최근 GPT-4 모델을 사용해서 검색을 하고 그 결과를 채팅 형식으로 반환하는 서비스를 제공하고 있다. 이러한 변화 덕분에 부동의 1위 검색 엔진이었던 구글의 입지가 심각하게 흔들리고 있고, 구글 역시 이와 같은 흐름에 뒤처지지 않기 위해 애쓰고 있음이 기사화되기도 했다. 따라서 단순한 챗봇을 넘어서 최신 ..

<Tool> Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models

2023.05.01· Paper Review

최근에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ LLM(GPT-4)을 주축으로 vision models, web search engines, Python functions 등 다양한 도구들로 구성된 통합 시스템 구축 배경 최근 LLM이 엄청난 퍼포먼스를 보이는 것은 사실이지만 명확한 한계를 보이는 것도 사실이다. 대표적으로 ‘최신 정보를 반영하지 못한다는 점’, ‘외부 도구를 이용할 수 없다는 점(오직 챗봇으로만 이용 가능)’, ‘수학적 추론 능력이 부족하다는 점’ 등을 예로 들 수 있다. 이러한 한계를 극복하기 위해서 LLM을 통합 시스템을 구축하는 데 사용하는 방법론을 제안한다. LLM이 문제를 ..

<Long Sequence> Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System

2023.04.28· Paper Review

최근에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ 현재 LLM들이 가지는 입력의 길이 제한 문제를 엄청나게 개선하는 방법에 관한 논문 배경 최근 ChatGPT의 등장 이후로 LLM에 대한 관심이 뜨겁고 실제로 그 성능이 어마무시하게 좋다는 것은 잘 알려져 있다. 그럼에도 불구하고 이러한 LLM들은 transformer 기반의 architecture를 사용하기 때문에, ‘입력의 길이가 제한’되고 ‘이 길이를 늘리는 데 드는 비용이 엄청나게 크다’는 문제점이 있었다. 대표적인 예로 사람들이 챗봇을 통해 처리하기 원하는 것 중 하나가 문서 요약인데, 길이가 조금만 길어도 이를 잘 처리하지 못하는 모습을 쉽게..

<CoT> [MCR] Answering Questions by Meta-Reasoning over Multiple Chains of Thought

2023.04.28· Paper Review

최근에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ LLM을 학습시킬 때 Chain of Thought(CoT)가 모델의 performance를 엄청나게 향상시킨다는 것은 잘 알려져있다. 이때 chain의 중간 과정들은 사실상 버려지게 되는데, Multi-Chain Reasoning(MCR)에서는 이를 정답을 생성하는 근거로 재활용한다(여기서는 다른 LLM을 사용). 모델 컨셉 우선 주어진 질문을 쪼갠다(decomposition) → 질문을 기반으로 탐색(retrieval)하여 원하는 정보를 가져와 답변으로 만든다 → 이 과정을 반복하여 multi-chain을 만든다. 생성된 multi-chain의 일부..

<Distillation> oBERTa: Improving Sparse Transfer Learning via improved initialization, distillation, and pruning regimes

2023.04.27· Paper Review

지난 달에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ 기존에 경량화와 관련된 연구 중, pruning, distillation, quantization, frozen embeddings을 이용하여 RoBERTa를 경량화하되 준수한 성능을 유지할 수 있도록 한 모델 배경 Transformer architecture의 등장 이후로 관련된 연구가 엄청나게 많이 이뤄졌다. 갈수록 더 많은 computer resource를 요구하는 연구 경향에 비례하여 이를 경량화하고자 하는 시도들도 많이 이뤄졌다. BERT라는 모델에 대해서는 엄청나게 많은 연구가 이뤄졌지만, 좀 더 많은 자원을 필요로 하는 RoBERTa의 ..

티스토리툴바