LLM

· Paper Review
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ LLM(GPT-4)을 주축으로 vision models, web search engines, Python functions 등 다양한 도구들로 구성된 통합 시스템 구축 배경 최근 LLM이 엄청난 퍼포먼스를 보이는 것은 사실이지만 명확한 한계를 보이는 것도 사실이다. 대표적으로 ‘최신 정보를 반영하지 못한다는 점’, ‘외부 도구를 이용할 수 없다는 점(오직 챗봇으로만 이용 가능)’, ‘수학적 추론 능력이 부족하다는 점’ 등을 예로 들 수 있다. 이러한 한계를 극복하기 위해서 LLM을 통합 시스템을 구축하는 데 사용하는 방법론을 제안한다. LLM이 문제를 ..
· Paper Review
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ 현재 LLM들이 가지는 입력의 길이 제한 문제를 엄청나게 개선하는 방법에 관한 논문 배경 최근 ChatGPT의 등장 이후로 LLM에 대한 관심이 뜨겁고 실제로 그 성능이 어마무시하게 좋다는 것은 잘 알려져 있다. 그럼에도 불구하고 이러한 LLM들은 transformer 기반의 architecture를 사용하기 때문에, ‘입력의 길이가 제한’되고 ‘이 길이를 늘리는 데 드는 비용이 엄청나게 크다’는 문제점이 있었다. 대표적인 예로 사람들이 챗봇을 통해 처리하기 원하는 것 중 하나가 문서 요약인데, 길이가 조금만 길어도 이를 잘 처리하지 못하는 모습을 쉽게..
· Paper Review
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ LLM을 학습시킬 때 Chain of Thought(CoT)가 모델의 performance를 엄청나게 향상시킨다는 것은 잘 알려져있다. 이때 chain의 중간 과정들은 사실상 버려지게 되는데, Multi-Chain Reasoning(MCR)에서는 이를 정답을 생성하는 근거로 재활용한다(여기서는 다른 LLM을 사용). 모델 컨셉 우선 주어진 질문을 쪼갠다(decomposition) → 질문을 기반으로 탐색(retrieval)하여 원하는 정보를 가져와 답변으로 만든다 → 이 과정을 반복하여 multi-chain을 만든다. 생성된 multi-chain의 일부..
· Paper Review
지난 달에 나온 논문을 읽어보고 간단히 정리했습니다. 노션에 정리한 것을 그대로 긁어왔는데, 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ 기존에 경량화와 관련된 연구 중, pruning, distillation, quantization, frozen embeddings을 이용하여 RoBERTa를 경량화하되 준수한 성능을 유지할 수 있도록 한 모델 배경 Transformer architecture의 등장 이후로 관련된 연구가 엄청나게 많이 이뤄졌다. 갈수록 더 많은 computer resource를 요구하는 연구 경향에 비례하여 이를 경량화하고자 하는 시도들도 많이 이뤄졌다. BERT라는 모델에 대해서는 엄청나게 많은 연구가 이뤄졌지만, 좀 더 많은 자원을 필요로 하는 RoBERTa의 ..
chanmuzi
'LLM' 태그의 글 목록 (26 Page)