chanmuzi

<LLM> [phi-1] Textbooks Are All You Need

2023.06.28· Paper Review

최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Microsoft Research] textbook 수준의 우수한 품질의 데이터로 fine-tuning한 모델 phi-1. 데이터의 양보다도 질이 중요하다는 것을 코드 생성 분야에서 입증한 케이스. 배경 사실 여러 거대 인공지능 모델들이 성장함에 따라 이를 활용하거나, 경량화하거나 하는 등의 다양한 연구가 이뤄지고 있지만, 한편으로는 데이터셋에 대한 연구도 활발히 진행중입니다. 물론 데이터셋의 품질을 가르는 기준이 굉장히 주관적으로 느껴질 수 있습니다만, LIMA와 같은 모델에서 입증한 것처럼 잘 curated된 데이터셋은 그 작고..

<Optimizer> [LOMO] Full Parameter Fine-tuning for Large Language Models with Limited Resources

2023.06.27· Paper Review

최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success Low-Memory Optimization(LOMO) gradient 계산과 파라미터 업데이트를 한 번에 진행함으로써 ‘메모리 사용량’을 획기적으로 줄이는 기법을 제시. 65B 모델을 RTX 3090 24GB 8대로 fine-tuning. 배경 요즘 언어 모델 관련 논문을 읽으면 항상 비슷한 이야기로 시작할 수밖에 없는 것 같습니다. 말 그대로 거대 언어 모델은 어마무시한 자원을 필요로 하기 때문에, 개인이나 작은 연구 시설 혹은 조직들은 관련 연구를 진행할 엄두도 내지 못했습니다. 이에 따라서 모델의 사이즈를 줄이거나 연산량을 감소..

[PyTorch] RuntimeError: CUDA error: device-side assert triggered 오류 해결

2023.06.26· 딥러닝

⚠️ 클래스의 개수와 관련된 코드에서 주로 발생하는 오류! ⚠️ RuntimeError: CUDA error: device-side assert triggered 누가 봐도 GPU 관련 에러처럼 보이는 위 에러는 사실 차원(dimension) 에러입니다. 즉 텐서의 shape(size)이 맞지 않는다는 뜻이지요. 다른 분들이 남긴 trouble shooting 기록을 보면 모델의 입출력 사이즈를 맞춰주지 못해서 발생한 에러였다, class index를 잘못 설정해줬다, 등등 차원과 관련된 문제임을 알 수 있습니다. 상황이 다 다를 수 있기 때문에 확언할 수는 없지만, 종합적으로 내용을 합쳐보면 '클래스의 개수'에 따라 문제가 발생하는 경우가 많았습니다. 즉 multi-class classification..

[HuggingFace 🤗] Transformers를 활용한 모델 config 커스텀하기! (layer의 개수를 바꿔보자! - 와 쉽다!!)

2023.06.24· 딥러닝

오늘은 어느 정도 모델링에 익숙해진 분이라면 누구나 한번 쯤 마주할 수 있는 상황에 대해 글을 남겨보고자 합니다. 요즘은 HuggingFace에 등록되지 않은 인공지능 모델이 없는 수준이죠. (그래서 기업도 단순히 from_pretrained만 할 줄 아는 사람을 원하지 않고요) 그런데 가끔은 내가 원하는대로 모델 설정을 바꾸고 싶지만 그게 마음대로 잘 되지는 않습니다. 사용자들이 편리하게 이용할 수 있게끔 만들어놓은 라이브러리는 결국 여러겹으로 쌓여있는 형태라서, 이를 마음대로 변경하려면 특별한 방법들이 필요하죠. 그래서 오늘은 HuggingFace에서 모델을 불러올 때 config를 직접적으로 수정해서 불러오는 방법에 대해 짤막하게 소개하고자 합니다. 상황은 다음과 같이 정리합니다. 1. Bert M..

<Distillation> [MINILLM] Knowledge Distillation of Large Language Models

2023.06.24· Paper Review

최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Microsoft Research] reverse KLD를 이용하여 사이즈가 큰 생성 모델로부터 distill을 적용한 MINILLM. 우수한 성능과 함께, 더 큰 사이즈의 모델에도 적용할 수 있다는 특징, 즉 scability가 특징이다. 배경 LLM이 크게 주목을 받으면서 이를 운용하기 위해 필요한 자원상의 한계가 항상 지적되었습니다. 덕분에 적은 자원을 사용하면서도 준수한 성능을 유지할 수 있도록 하는 기법들이 많이 연구되었습니다. 그중에서도 Knowledge Distillation(KD) 방식도 아주 활발히 사용되는데, 큰 ..

<CoT> [Natural Program] Deductive Verification of Chain-of-Thought Reasoning

2023.06.24· Paper Review

최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Qualcomm AI Research] 자연어를 바탕으로 갖춘 연역적 추론의 포맷, Natural Program을 제작. step-by-step, CoT 방식에 있어서 더 철저한 reasoning step을 생성할 수 있게 되었음. 배경 Chain of Thought(CoT) 기법은 기존의 LLM들이 진가를 발휘할 수 있도록 돕는 방법으로 LLM계에 큰 파장을 일으켰습니다. 확률 분포를 기반으로 다음 토큰을 예측하기만 했던 LLM의 예측 방식이 정말 사람과 유사한 논리적 구조를 갖출 수 있게끔 도와준 것처럼 보이기도 했죠. 예를 들..

전체 글

티스토리툴바