분류 전체보기

· 후기
지난 5월 1일(수) ~ 5월 3일(금) 동안 코엑스에서 AI Expo 2024가 진행되었습니다.저는 마지막 날인 금요일에 참석했고 이에 대한 짤막한 후기를 남겨보려고 합니다.작년에는 이런 행사가 있는지 몰랐었는데 상당히 큰 규모였고(지금까지 다녀봤던 행사들 중 기업 부스가 가장 많았던 것 같네요 😲), 느낌이 조금 달랐습니다..! 디테일한 내용들은 후술 하고.. 결론적으로 느낀 것은..1. 모델을 직접 학습하고 활용하는 사례가 굉장히 많이 줄어들었다. (API 기반의 솔루션, 프로덕트가 대부분)2. MLOps, LLMOps 관련 솔루션들이 오히려 탄탄한 기술력을 갖고 있다고 느껴졌고 시장성도 좋다는 생각이 들었다.3. 같은 맥락에서 computing resource 관련 사업도 유망하다는 생각이 들었..
· Paper Review
관심 있는 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️usechatgpt init success[Microsoft]- scan된 문서에 대한 text와 layout 정보 간의 interaction을 함께 학습- 사전학습 단계에서 문서 단위로 학습 출처 : https://arxiv.org/abs/1912.133181. IntroductionBusiness document를 이해하고 그 정보를 활용하기 위한 연구는 오래 전부터 이어져오고 있었습니다.기존에는 대부분의 문서 작업을 사람이 직접 하는 방식이었기 때문에, 이를 인공지능 모델을 이용하여 효율적으로 해결하고자 한 것이죠.그러나 실제로 여러 문서들은 다양한 layout과 형식으로 구성되는 경우가..
· Paper Review
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️usechatgpt init success[Microsoft]- 3.3T개 토큰을 학습한 3.8B 사이즈의 모델 phi-3-mini를 공개. 사이즈가 굉장히 작음에도 불구하고 Mixtral 8x7B, GPT-3.5급의 추론 능력을 보여주어 화제.- multi-lingual 특성을 강화하여 학습한 phi-3-small 모델(7B)과 mini 모델을 추가학습한 phi-3-medium 모델(14B)을 함께 공개 출처 : https://arxiv.org/abs/2404.142191. Introduction지난 몇 년 간 인공지능의 눈부신 발전은 점점 더 큰 모델과 데이터셋을 만..
· 딥러닝
안녕하세요, chanmuzi입니다. 오늘 새벽 Meta에서 Llama 3 모델을 공개했습니다! 커뮤니티를 보니 소수의 사람들은 이미 이 모델을 사용하고 있었다고 하더군요. 전작에 비해 훨씬 잘한다고 알려진 이 모델은 벌써 허깅페이스에도 업로드 되었습니다. 허깅페이스에서는 블로그 글도 항상 깔끔하고 상세하게 잘 써주는데요, 오늘은 llama 3 관련 내용이 저도 궁금해서 ChatGPT에게 번역을 의뢰하여 얻은 내용을 공유하고자 합니다! (경쟁자의 탄생을 직시하게 만들어버리는..😅) 참고로 메타의 블로그는 이 링크를, 허깅페이스의 블로그 원문은 이 링크를, 그리고 허깅페이스의 모델 카드는 이 링크를 통해 확인 가능합니다. Welcome Llama 3 - Meta's new open LLM Introducti..
· Paper Review
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Mila, McGill University, Facebook CIFAR AI Chair] - decoder-only LLM을 강력한 텍스트 encoder로 변환해주는 간단한 unsupervised approach, LLM2Vec - 1) enabling bidirectional attention 2) masked next token prediction 3) unsupervised contrastive learning, 세 개의 요소로 구성 - publicly available 데이터만 이용하여 모델을 학습 - supervised contras..
· Paper Review
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ (코드 구현에 관한 내용은 마지막에 다루고 있습니다!!) usechatgpt init success [University of Washington] - 기학습된 모델을 4-bit로 quantize한 뒤 Low Rank Adapters(LoRA)를 학습하는 방식 - QLoRA로 학습된 model family, Guanaco를 공개. - ChatGPT의 99.3% 성능을 발휘할 수 있는 65B 모델을 single GPU에서 24시간 동안 fine-tuning - 세 개의 tenchiques: (a) 4-bit NormalFloat (NF4), (b) Double Quantization, (..
chanmuzi
'분류 전체보기' 카테고리의 글 목록 (4 Page)