관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Microsoft] - 학습 동안에 residual path를 추가하고, 추론 시에는 extra path를 제거하는 merging을 적용한 ResLoRA - LoRA와 residual path를 결합한 최초의 방법론 출처 : https://arxiv.org/abs/2402.18039 ResLoRA: Identity Residual Mapping in Low-Rank Adaption As one of the most popular parameter-efficient fine-tuning (PEFT) methods, low-rank adapta..
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Google DeepMind] - RNN과 gated linear recurrence를 결합한 Hawk, gated linear recurrence와 local attention을 결합한 Griffin을 제안 - Hawk는 특정 태스크에서 Mamba 수준의 성능을, Griffin은 Llama-2 수준의 성능을 보임. 특히 후자의 경우 학습 당시에 접한 텍스트 보다 긴 데이터에 대해서도 뛰어난 성능을 보임. - 두 모델은 Transformers 대비 hardward efficient하며 lower latency & higher throughpu..
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Microsoft Research] - LLM의 각 파라미터가 {-1, 0, 1}, 셋 중 하나의 값을 갖도록 하는 BitNet b1.58을 도입 - 동일한 사이즈의 모델 및 학습 토큰양을 보유한 트랜스포머 기반의 LLM의 full-precision (FP16 or BF16)에 준하는 성능 - LLM에 학습에 있어서 새로운 scaling law를 만들어 냄 (Pareto Improvement) 출처 : https://arxiv.org/abs/2402.17764 The Era of 1-bit LLMs: All Large Language Mode..
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success ICLR 2023, [Google Research] - few shot에 포함된 예시들보다 어려운 문제를 풀지 못하는 easy-to-hard generalization 문제를 해결하고자 등장한 프롬프팅 기법 - 복잡한 문제를 여러 개의 subproblems으로 쪼갠 뒤, 각 subproblem에 대한 처리 결과를 순차적으로 이어 붙이는 방식인 least-to-most prompting 방식을 제안 출처 : https://arxiv.org/abs/2205.10625 Least-to-Most Prompting Enables Complex Reaso..
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Google DeepMind] - Gemini를 만들 때 사용했던 기술들을 바탕으로 학습된 lightweight & state-of-the art open models, Gemma를 공개 - language understanding, reasoning, safety 등 벤치마크에서 뛰어난 퍼포먼스를 보임 - 2B & 7B 모델의 raw version과 instruction fine-tuned version을 공개 (2T & 6T 토큰으로 학습) 출처 : https://storage.googleapis.com/deepmind-media/gemm..
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Google DeepMind] - LLM의 decoding process를 변경함으로써 prompting 없이 CoT reasoning paths를 유도할 수 있다고 주장 - top-k개의 alternative tokens를 조사하여 sequences에 내재하는 CoT paths를 확인. 즉 LLM에게 intrinsic reasoning ability가 있다고 주장 1. Introduction LLM이 눈부신 발전을 거듭하는 과정에는 reasoning task에 대한 수행 능력의 발전이 큰 몫을 차지하고 있습니다. 여기에는 특히나 CoT (C..