전체 글

· 딥러닝
주로 분류를 위해 사용되는 함수인 softmax는 딥러닝에서 가장 많이 쓰이는 녀석 중 하나일 겁니다. 이번에 '밑바닥부터 시작하는 딥러닝 1,2권'을 구현하면서 정말 여러 번 코드를 치면서 구현했었는데, 코드의 원리가 생각보다는 이해하기 쉽지 않았던 것 같습니다 🤔 함수 자체는 엄청 간단한데 의외로 역전파 원리는 그렇지 않습니다. 오늘은 이를 코드와 함께 꼼꼼히 살펴보면서 어떻게 구현이 되어있는지, 특히 미분이 왜 이렇게 되는 건지 알아보겠습니다!! 1. softmax 함수 정의하기 우선 총 n개의 클래스가 존재한다는 상황을 가정하겠습니다. 그리고 앞으로 이 함수의 입력은 벡터 a, 출력은 벡터 y, 정답은 벡터 t라고 하겠습니다. 따라서 각 벡터는 n개의 원소로 구성되어 있으므로 a = [a1, a2..
· Paper Review
관심있는 NLP 논문을 읽어보고 정리해보았습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [StatNLP Research Group] - 약 1 trillion tokens을 3 epoch 동안 사전학습한 compact 1.1B 언어 모델 - 기존 open-source 언어 모델들(OPT-1.3B, Pythia-1.4B)을 능가하는 성능 1. Introduction 최근 NLP 분야는 언어 모델의 사이즈를 scaling up 하는 방식으로 빠르게 발전하고 있음 이에 따라 한정된 자원을 효율적으로 활용하여 최적의 모델 사이즈와 이에 할당해야 하는 학습 데이터의 양을 정하는 것이 중요한 이슈로 떠오르게 됨 초반에는 모델의 사이즈를 무식하게(..
· Paper Review
관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success Abstract 대규모 언어 모델(Large Language Models, LLMs)은 다양한 추론 작업에서 뛰어난 성능을 보이지만, 많은 매개변수와 접근성 문제로 실제 적용에 어려움이 있음. LLM에서 생성된 사고 과정 체인을 활용하여 작은 모델로 추론 능력을 정제하는 방법이 유망함. 복잡한 수학 문제 등에서 LLM이 잘못된 추론 체인을 생성할 수 있음. 기존 연구는 정확한 답변을 포함한 긍정적 데이터만을 이용하고, 잘못된 답변을 포함한 데이터는 제외함. 본 연구에서는 부정적 데이터의 중요성을 제시하고, 긍정적 및 부정적 샘플..
· Paper Review
관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success 0. Abstract [Upstage AI] - SOLAR 10.7B 소개: 107억 개의 파라미터를 가진 대규모 언어 모델(Large Language Model, LLM). - 주요 특징: 다양한 자연어 처리(Natural Language Processing, NLP) 작업에서 우수한 성능을 보임. - Depth Up-Scaling(DUS) 방법 제시: LLM의 효율적인 확장을 위한 깊이 기반 스케일링과 지속적인 사전 훈련을 포함. - DUS의 장점: 기존 대규모 LLM 스케일링 방법들과 달리 복잡한 변경 없이 효율적인 훈련 ..
· 후기
블로그에 꾸준히 글을 올리는 사람으로서, 2023년이 가기 전에 회고록을 꼭 쓰고 싶다는 생각을 했었어요. 이력서나 포트폴리오를 준비할 때를 제외하면 스스로를 돌아본 시간이 없었기 때문이죠. 처음에는 왜 굳이 회고글을 쓰는가에 대한 의문이 참 많았는데요(지금도 그렇지만), 막연하게는 스스로를 칭찬 또는 격려해주고 싶은 것 아닐까 생각했었습니다. 성향에 따라 저같은 사람들은 채찍질하기 바쁘겠지만요. 어쨌든 오늘은 공부할 시간을 일부 포기하면서라도 제 1년 간의 행보를 돌아보고 내년에는 어느 정도의 노력을 어디에 쏟아 부어야 할지 가늠해보도록 하겠습니다. 음, 우선 올해의 마지막인 오늘을 기준으로 제 상황을 정리해보자면... 저는 대학원 인턴에 합격해서 오늘부(2023.12.31)로 퇴사하게 되었구요, 해당..
· Paper Review
관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success Abstract 대규모 언어 모델(Large Language Models, LLMs)은 양적 추론부터 자연어 이해에 이르기까지 복잡한 작업을 수행하는 능력을 보여주었으나, 때때로 사실이 아닌 설득력 있는 진술(환각)을 만들어내는 문제가 있음. 현재 대규모 모델의 과학적 발견에서의 사용을 제한하는 이러한 문제를 해결하기 위해, 사전 훈련된 LLM과 체계적인 평가자를 결합한 진화적 절차인 'FunSearch'를 소개함. FunSearch는 중요한 문제에서 최고의 결과를 뛰어넘는 효과를 입증하며, 대규모 LLM 기반 접근법의 한계를 ..
chanmuzi
chanmuzi