관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Tsinghua University, Zhipu AI] - GUI에 대한 이해가 뛰어난 18B 사이즈의 Visual Language Model (VLM)을 도입 - low-resolution & high-resolution image encoder를 동시에 사용하고 cross attention - VQA & GUI 벤치마크 둘 다에서 뛰어난 성능이 확인됨 1. Introduction 최근 LLM을 바탕으로 한 agent의 성장세가 가파른 상황입니다. 무려 15만 개의 star를 받은 AutoGPT를 시작으로 LLM의 능력을 다양한 applica..
주로 분류를 위해 사용되는 함수인 softmax는 딥러닝에서 가장 많이 쓰이는 녀석 중 하나일 겁니다. 이번에 '밑바닥부터 시작하는 딥러닝 1,2권'을 구현하면서 정말 여러 번 코드를 치면서 구현했었는데, 코드의 원리가 생각보다는 이해하기 쉽지 않았던 것 같습니다 🤔 함수 자체는 엄청 간단한데 의외로 역전파 원리는 그렇지 않습니다. 오늘은 이를 코드와 함께 꼼꼼히 살펴보면서 어떻게 구현이 되어있는지, 특히 미분이 왜 이렇게 되는 건지 알아보겠습니다!! 1. softmax 함수 정의하기 우선 총 n개의 클래스가 존재한다는 상황을 가정하겠습니다. 그리고 앞으로 이 함수의 입력은 벡터 a, 출력은 벡터 y, 정답은 벡터 t라고 하겠습니다. 따라서 각 벡터는 n개의 원소로 구성되어 있으므로 a = [a1, a2..
안녕하세요, chanmuzi입니다! 지난 게시글에서 데이콘에서 일을 시작하게 됐다는걸 말씀드렸는데요 ㅎㅎ 이번에는 데이콘에서 제가 기획한 첫 대회를 오픈하게 되어서 이를 공유하고자 합니다! https://dacon.io/competitions/official/236118/overview/description 이미지, 그리고 이미지와 관련된 질문이 주어지면 적절한 답변을 반환하는 모델을 구축하는 대회입니다. 일반적으로 Visual Question Answering(VQA)이라고 불리는 태스크이며 대표적인 멀티 모달(multi-modal) 중 하나입니다! 이미지와 텍스트를 함께 이해할 수 있도록 모델링 해야 하는데요, 여기에 필요한 데이터의 수도 적지 않아서 분명 쉽지 않은 과제입니다. 베이스라인도 딥러닝에..
⚠️ 클래스의 개수와 관련된 코드에서 주로 발생하는 오류! ⚠️ RuntimeError: CUDA error: device-side assert triggered 누가 봐도 GPU 관련 에러처럼 보이는 위 에러는 사실 차원(dimension) 에러입니다. 즉 텐서의 shape(size)이 맞지 않는다는 뜻이지요. 다른 분들이 남긴 trouble shooting 기록을 보면 모델의 입출력 사이즈를 맞춰주지 못해서 발생한 에러였다, class index를 잘못 설정해줬다, 등등 차원과 관련된 문제임을 알 수 있습니다. 상황이 다 다를 수 있기 때문에 확언할 수는 없지만, 종합적으로 내용을 합쳐보면 '클래스의 개수'에 따라 문제가 발생하는 경우가 많았습니다. 즉 multi-class classification..
오늘은 어느 정도 모델링에 익숙해진 분이라면 누구나 한번 쯤 마주할 수 있는 상황에 대해 글을 남겨보고자 합니다. 요즘은 HuggingFace에 등록되지 않은 인공지능 모델이 없는 수준이죠. (그래서 기업도 단순히 from_pretrained만 할 줄 아는 사람을 원하지 않고요) 그런데 가끔은 내가 원하는대로 모델 설정을 바꾸고 싶지만 그게 마음대로 잘 되지는 않습니다. 사용자들이 편리하게 이용할 수 있게끔 만들어놓은 라이브러리는 결국 여러겹으로 쌓여있는 형태라서, 이를 마음대로 변경하려면 특별한 방법들이 필요하죠. 그래서 오늘은 HuggingFace에서 모델을 불러올 때 config를 직접적으로 수정해서 불러오는 방법에 대해 짤막하게 소개하고자 합니다. 상황은 다음과 같이 정리합니다. 1. Bert M..
간단한 딥러닝 모델을 구현하기 위해서 코드를 작성하던 도중, 이전에 본 적 없었던 에러를 만나게 됐습니다. 에러 메세지는 다음과 같습니다. """ cannot import name 'PartialState' from 'accelerate' (/opt/conda/lib/python3.10/site-packages/accelerate/__init__.py) """ 실행한 코드는 다음과 같습니다. from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer from torch.utils.data import Dataset model_name = "bert-base-uncased" learning_rate = 1e-5 ma..