최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success Low-Memory Optimization(LOMO) gradient 계산과 파라미터 업데이트를 한 번에 진행함으로써 ‘메모리 사용량’을 획기적으로 줄이는 기법을 제시. 65B 모델을 RTX 3090 24GB 8대로 fine-tuning. 배경 요즘 언어 모델 관련 논문을 읽으면 항상 비슷한 이야기로 시작할 수밖에 없는 것 같습니다. 말 그대로 거대 언어 모델은 어마무시한 자원을 필요로 하기 때문에, 개인이나 작은 연구 시설 혹은 조직들은 관련 연구를 진행할 엄두도 내지 못했습니다. 이에 따라서 모델의 사이즈를 줄이거나 연산량을 감소..
paper review
최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Microsoft Research] reverse KLD를 이용하여 사이즈가 큰 생성 모델로부터 distill을 적용한 MINILLM. 우수한 성능과 함께, 더 큰 사이즈의 모델에도 적용할 수 있다는 특징, 즉 scability가 특징이다. 배경 LLM이 크게 주목을 받으면서 이를 운용하기 위해 필요한 자원상의 한계가 항상 지적되었습니다. 덕분에 적은 자원을 사용하면서도 준수한 성능을 유지할 수 있도록 하는 기법들이 많이 연구되었습니다. 그중에서도 Knowledge Distillation(KD) 방식도 아주 활발히 사용되는데, 큰 ..
최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Qualcomm AI Research] 자연어를 바탕으로 갖춘 연역적 추론의 포맷, Natural Program을 제작. step-by-step, CoT 방식에 있어서 더 철저한 reasoning step을 생성할 수 있게 되었음. 배경 Chain of Thought(CoT) 기법은 기존의 LLM들이 진가를 발휘할 수 있도록 돕는 방법으로 LLM계에 큰 파장을 일으켰습니다. 확률 분포를 기반으로 다음 토큰을 예측하기만 했던 LLM의 예측 방식이 정말 사람과 유사한 논리적 구조를 갖출 수 있게끔 도와준 것처럼 보이기도 했죠. 예를 들..
최근(2023.04)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Yann LeCun, Meta AI (FAIR)] 이미지로부터 self-supervised learning을 통해 Joint-Embedding Predictive Architecture(I-JEPA) 기법을 구현. hand-crafted 이미지 증강 없이 우수한 semantic 이미지 representation을 획득. 배경 기존의 연구들은 invariance-based 혹은 generative 관련 방법론들입니다. 이러한 방법론들은 특정 downstream task에 대해서는 치명적일 수 있는 강한 편향을 갖게 되는 단점을 갖고 ..
최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Meta AI] LLM이 상관 관계로부터 인과 추론을 할 수 있을까?에 대한 답변은 No. 관계를 나타내는 그래프 이론을 통해 LLM이 지닌 추론 능력의 한계를 드러낸 논문. causality, 인과성을 지녔는지를 확인하는 방법은 크게 두 가지로 나뉩니다. 경험적 지식을 바탕으로 추론하고 있는가를 확인, 혹은 순수한 인과 추론 능력 확인입니다. 지금까지의 연구들은 전자에 집중되어 있습니다. 다르게 말하자면 여러 LLM들이 실제로 추론 능력을 갖추고 있는지에 대해서는 큰 관심이 없고, 대신 학습한 확률 분포를 기반으로 다음에 올 토큰..
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Microsoft Research] 단순히 Large Foundation Models(LFMs)의 결론을 모방하지 않고, LFM의 추론 과정(reasoning process)을 배워야 성능 향상으로 이어진다. 그러나 아직까지도 LFM의 능력을 제대로 follow-up하지는 못한다(GPT-4의 벽). ChatGPT가 뜨거운 관심을 받으면서 한편으로는 모델 경량화에 대한 관심도 엄청나게 커졌습니다. 지금도 마찬가지인게 GPT나 BARD 등 사람들에게 잘 알려진 챗봇의 기반이 되는 모델들의 사이즈가 너무 커져서 개인이 운용하기가 너무 힘들어졌기 때문입니..