간단한 딥러닝 모델을 구현하기 위해서 코드를 작성하던 도중, 이전에 본 적 없었던 에러를 만나게 됐습니다. 에러 메세지는 다음과 같습니다. """ cannot import name 'PartialState' from 'accelerate' (/opt/conda/lib/python3.10/site-packages/accelerate/__init__.py) """ 실행한 코드는 다음과 같습니다. from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer from torch.utils.data import Dataset model_name = "bert-base-uncased" learning_rate = 1e-5 ma..
분류 전체보기
![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbyDbRo%2FbtshAzlhTvI%2FcePG5kmJDRU7do82AS9GIK%2Fimg.png)
이전에 OpenAI에서 게재한 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [OpenAI] 고품질의 언어-수학 문제(8.5K개)로 구성된 데이터셋 구축. verifier를 학습시켜서 모델의 문제 풀이 능력을 향상 시킴. 배경 2021년 당시에도 LLM(Large Language Model)들의 능력에 대해 많은 관심이 있었는데, 이 모델들의 한계 중 대표적으로 꼽히는 것이 수학 문제 풀이 능력이었습니다. 정확히는 multi-step mathematical reasoning인데요, 다른 분야에서 뛰어난 퍼포먼스를 보여준 것과 달리 이 태스크에 대해서는 문제를 굉장히 쉽게 준다고 하더라도 잘 맞히지 못했죠. ..
![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbYJXpE%2FbtshBl0SLzE%2FOKKUQIAP2iAM8JbPvFFZPK%2Fimg.png)
이 글은 1년 간 진로에 대해 끊임없이 고민하고 노력했던 저 스스로를 돌아보기 위해 작성합니다. 또한 간간이 제 블로그 글을 보고 자극을 받는다고 말씀해주시는 분들, 혹은 취업 후기 등을 찾아보며 제 블로그를 방문하신 취준생 분들을 위해 작성합니다. 1. chanmuzi는 2022-2023에 무엇을 했을까요? 2. 앞으로 저는 무엇을 해야 할까요? 3. 개발자, 데이터 사이언티스트, AI 기술자, 될 수 있을까요? 저는 최근 데이콘에 입사해서 데이터 사이언티스트로 커리어를 시작하게 되었어요. 얼떨떨한 마음이 가장 큰 것 같습니다. 항상 스스로가 부족하다는 것을 잘 알기에 애써왔고, 앞으로도 갈 길이 멀다고 생각했으니까요. 좀 더 적나라하게 말하자면 돈 받고 일할 실력 따위는 없다고 스스로 판단했던 것이 ..
![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fb1Pop9%2FbtshG8fi6yr%2Fvg6GNC3V64HVoNIlG4pkm1%2Fimg.png)
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success 워싱턴 대학에서 제출한, PEFT(Parameter Efficient Fine Tuning) 기법 중 하나를 다룬 논문. 65B개 파라미터를 갖는 모델을 48GB GPU 한 장으로 finetuning할 수 있도록 만들었다. 배경 최근 언어 모델 관련 분야에서는 가장 주목을 받는 기술이 모델 경량화인 것 같습니다. 모델 자체를 light하게 만드는 것보다는 사전 학습된 모델을 최대한 적은 자원으로 fine tuning할 수 있도록 만드는 기술들에 관련된 것이죠. 특히 메타에서 만든 LLaMA의 등장 이후로 정말 많은 개인(물론 이것도 자원을 아예 필요..
![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcTasgz%2FbtshA5wYmSR%2FoUUECq9s6vXawWAofC1qGK%2Fimg.png)
문제 링크 https://school.programmers.co.kr/learn/courses/30/lessons/178870 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 소스 코드 def solution(sequence, k): l = len(sequence) result = [] tmp = sequence[0] # 초깃값 right = 0 for left in range(l): while (right < l-1) and (tmp < k): # 범위 만족 & 부분합이 k보다 작을 때 right += 1 tmp += sequence[right] # 오른..
![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FLcGM3%2FbtshjEe3rqw%2F9ptqd65DKQlXWKt1WhDBxk%2Fimg.png)
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success 천 개의 curated 학습 데이터로 LLaMA를 학습하여 GPT-4에 준하는 모델을 생성한 결과를 담은 논문 배경 지금까지 언어 모델의 학습 트렌드는 1) 대규모 말뭉치를 unsupervised pretraining하고 2) large scale의 instruction tuning과 reinforcement learning을 적용하는 것입니다. 놀랄 정도로 우수한 성능을 보여준 것과는 별개로, 엄청난 수준의 자원을 필요로 한다는 것은 자명한 사실이죠. 논문의 저자는, ‘언어 모델이 학습하는 지식과 능력은 사전학습 동안 모두 습득되고, 이를 대화 형..