최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success Low-Memory Optimization(LOMO) gradient 계산과 파라미터 업데이트를 한 번에 진행함으로써 ‘메모리 사용량’을 획기적으로 줄이는 기법을 제시. 65B 모델을 RTX 3090 24GB 8대로 fine-tuning. 배경 요즘 언어 모델 관련 논문을 읽으면 항상 비슷한 이야기로 시작할 수밖에 없는 것 같습니다. 말 그대로 거대 언어 모델은 어마무시한 자원을 필요로 하기 때문에, 개인이나 작은 연구 시설 혹은 조직들은 관련 연구를 진행할 엄두도 내지 못했습니다. 이에 따라서 모델의 사이즈를 줄이거나 연산량을 감소..
분류 전체보기
⚠️ 클래스의 개수와 관련된 코드에서 주로 발생하는 오류! ⚠️ RuntimeError: CUDA error: device-side assert triggered 누가 봐도 GPU 관련 에러처럼 보이는 위 에러는 사실 차원(dimension) 에러입니다. 즉 텐서의 shape(size)이 맞지 않는다는 뜻이지요. 다른 분들이 남긴 trouble shooting 기록을 보면 모델의 입출력 사이즈를 맞춰주지 못해서 발생한 에러였다, class index를 잘못 설정해줬다, 등등 차원과 관련된 문제임을 알 수 있습니다. 상황이 다 다를 수 있기 때문에 확언할 수는 없지만, 종합적으로 내용을 합쳐보면 '클래스의 개수'에 따라 문제가 발생하는 경우가 많았습니다. 즉 multi-class classification..
오늘은 어느 정도 모델링에 익숙해진 분이라면 누구나 한번 쯤 마주할 수 있는 상황에 대해 글을 남겨보고자 합니다. 요즘은 HuggingFace에 등록되지 않은 인공지능 모델이 없는 수준이죠. (그래서 기업도 단순히 from_pretrained만 할 줄 아는 사람을 원하지 않고요) 그런데 가끔은 내가 원하는대로 모델 설정을 바꾸고 싶지만 그게 마음대로 잘 되지는 않습니다. 사용자들이 편리하게 이용할 수 있게끔 만들어놓은 라이브러리는 결국 여러겹으로 쌓여있는 형태라서, 이를 마음대로 변경하려면 특별한 방법들이 필요하죠. 그래서 오늘은 HuggingFace에서 모델을 불러올 때 config를 직접적으로 수정해서 불러오는 방법에 대해 짤막하게 소개하고자 합니다. 상황은 다음과 같이 정리합니다. 1. Bert M..
최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Microsoft Research] reverse KLD를 이용하여 사이즈가 큰 생성 모델로부터 distill을 적용한 MINILLM. 우수한 성능과 함께, 더 큰 사이즈의 모델에도 적용할 수 있다는 특징, 즉 scability가 특징이다. 배경 LLM이 크게 주목을 받으면서 이를 운용하기 위해 필요한 자원상의 한계가 항상 지적되었습니다. 덕분에 적은 자원을 사용하면서도 준수한 성능을 유지할 수 있도록 하는 기법들이 많이 연구되었습니다. 그중에서도 Knowledge Distillation(KD) 방식도 아주 활발히 사용되는데, 큰 ..
최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Qualcomm AI Research] 자연어를 바탕으로 갖춘 연역적 추론의 포맷, Natural Program을 제작. step-by-step, CoT 방식에 있어서 더 철저한 reasoning step을 생성할 수 있게 되었음. 배경 Chain of Thought(CoT) 기법은 기존의 LLM들이 진가를 발휘할 수 있도록 돕는 방법으로 LLM계에 큰 파장을 일으켰습니다. 확률 분포를 기반으로 다음 토큰을 예측하기만 했던 LLM의 예측 방식이 정말 사람과 유사한 논리적 구조를 갖출 수 있게끔 도와준 것처럼 보이기도 했죠. 예를 들..
최근(2023.04)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Yann LeCun, Meta AI (FAIR)] 이미지로부터 self-supervised learning을 통해 Joint-Embedding Predictive Architecture(I-JEPA) 기법을 구현. hand-crafted 이미지 증강 없이 우수한 semantic 이미지 representation을 획득. 배경 기존의 연구들은 invariance-based 혹은 generative 관련 방법론들입니다. 이러한 방법론들은 특정 downstream task에 대해서는 치명적일 수 있는 강한 편향을 갖게 되는 단점을 갖고 ..