paper review

· Paper Review
최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success Low-Memory Optimization(LOMO) gradient 계산과 파라미터 업데이트를 한 번에 진행함으로써 ‘메모리 사용량’을 획기적으로 줄이는 기법을 제시. 65B 모델을 RTX 3090 24GB 8대로 fine-tuning. 배경 요즘 언어 모델 관련 논문을 읽으면 항상 비슷한 이야기로 시작할 수밖에 없는 것 같습니다. 말 그대로 거대 언어 모델은 어마무시한 자원을 필요로 하기 때문에, 개인이나 작은 연구 시설 혹은 조직들은 관련 연구를 진행할 엄두도 내지 못했습니다. 이에 따라서 모델의 사이즈를 줄이거나 연산량을 감소..
· Paper Review
최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Microsoft Research] reverse KLD를 이용하여 사이즈가 큰 생성 모델로부터 distill을 적용한 MINILLM. 우수한 성능과 함께, 더 큰 사이즈의 모델에도 적용할 수 있다는 특징, 즉 scability가 특징이다. 배경 LLM이 크게 주목을 받으면서 이를 운용하기 위해 필요한 자원상의 한계가 항상 지적되었습니다. 덕분에 적은 자원을 사용하면서도 준수한 성능을 유지할 수 있도록 하는 기법들이 많이 연구되었습니다. 그중에서도 Knowledge Distillation(KD) 방식도 아주 활발히 사용되는데, 큰 ..
· Paper Review
최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Qualcomm AI Research] 자연어를 바탕으로 갖춘 연역적 추론의 포맷, Natural Program을 제작. step-by-step, CoT 방식에 있어서 더 철저한 reasoning step을 생성할 수 있게 되었음. 배경 Chain of Thought(CoT) 기법은 기존의 LLM들이 진가를 발휘할 수 있도록 돕는 방법으로 LLM계에 큰 파장을 일으켰습니다. 확률 분포를 기반으로 다음 토큰을 예측하기만 했던 LLM의 예측 방식이 정말 사람과 유사한 논리적 구조를 갖출 수 있게끔 도와준 것처럼 보이기도 했죠. 예를 들..
· Paper Review
최근(2023.04)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Yann LeCun, Meta AI (FAIR)] 이미지로부터 self-supervised learning을 통해 Joint-Embedding Predictive Architecture(I-JEPA) 기법을 구현. hand-crafted 이미지 증강 없이 우수한 semantic 이미지 representation을 획득. 배경 기존의 연구들은 invariance-based 혹은 generative 관련 방법론들입니다. 이러한 방법론들은 특정 downstream task에 대해서는 치명적일 수 있는 강한 편향을 갖게 되는 단점을 갖고 ..
· Paper Review
최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Meta AI] LLM이 상관 관계로부터 인과 추론을 할 수 있을까?에 대한 답변은 No. 관계를 나타내는 그래프 이론을 통해 LLM이 지닌 추론 능력의 한계를 드러낸 논문. causality, 인과성을 지녔는지를 확인하는 방법은 크게 두 가지로 나뉩니다. 경험적 지식을 바탕으로 추론하고 있는가를 확인, 혹은 순수한 인과 추론 능력 확인입니다. 지금까지의 연구들은 전자에 집중되어 있습니다. 다르게 말하자면 여러 LLM들이 실제로 추론 능력을 갖추고 있는지에 대해서는 큰 관심이 없고, 대신 학습한 확률 분포를 기반으로 다음에 올 토큰..
· Paper Review
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Microsoft Research] 단순히 Large Foundation Models(LFMs)의 결론을 모방하지 않고, LFM의 추론 과정(reasoning process)을 배워야 성능 향상으로 이어진다. 그러나 아직까지도 LFM의 능력을 제대로 follow-up하지는 못한다(GPT-4의 벽). ChatGPT가 뜨거운 관심을 받으면서 한편으로는 모델 경량화에 대한 관심도 엄청나게 커졌습니다. 지금도 마찬가지인게 GPT나 BARD 등 사람들에게 잘 알려진 챗봇의 기반이 되는 모델들의 사이즈가 너무 커져서 개인이 운용하기가 너무 힘들어졌기 때문입니..
chanmuzi
'paper review' 태그의 글 목록 (22 Page)