'딥러닝' 카테고리의 글 목록

<Evaluation> Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models (2024.05)

2024.05.19· 딥러닝

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️usechatgpt init success[KAIST]- 사람과 GPT-4의 판단에 근사하는 open-source evaluator LM, Prometheus 2를 공개- direct assesssment와 pair-wise ranking 형식을 둘 다 처리할 수 있음- 유저가 정의한 평가 기준을 반영출처 : https://arxiv.org/abs/2405.015351. Introduction생성형 언어 모델이 크게 주목을 받고 사용됨에 따라 이에 대한 평가를 어떻게 내려야 하는가에 대한 논의가 끊이지 않고 있습니다.예전 언어 모델들은 출력해야 하는 답이 명확히 존재하는 태스크를 수행했..

Welcome Llama 3 - Meta’s new open LLM (HuggingFace 블로그 Llama 3 - ChatGPT 한글 번역)

2024.04.19· 딥러닝

안녕하세요, chanmuzi입니다. 오늘 새벽 Meta에서 Llama 3 모델을 공개했습니다! 커뮤니티를 보니 소수의 사람들은 이미 이 모델을 사용하고 있었다고 하더군요. 전작에 비해 훨씬 잘한다고 알려진 이 모델은 벌써 허깅페이스에도 업로드 되었습니다. 허깅페이스에서는 블로그 글도 항상 깔끔하고 상세하게 잘 써주는데요, 오늘은 llama 3 관련 내용이 저도 궁금해서 ChatGPT에게 번역을 의뢰하여 얻은 내용을 공유하고자 합니다! (경쟁자의 탄생을 직시하게 만들어버리는..😅) 참고로 메타의 블로그는 이 링크를, 허깅페이스의 블로그 원문은 이 링크를, 그리고 허깅페이스의 모델 카드는 이 링크를 통해 확인 가능합니다. Welcome Llama 3 - Meta's new open LLM Introducti..

[대학원생 필수!] 논문 관리 프로그램 Zotero 추천 (WebDAV 연결, iPad annotation 싱크 관리)

2024.03.18· 딥러닝

제가 대학원생은 아니지만.. 논문을 자주 읽고 정리하는 사람으로서 강추하고 싶은 프로그램, Zotero를 어떻게 설치하고 활용할 수 있는지에 대해 포스팅해보고자 합니다. 사실 그냥 다운로드받고 쓰는 방법 자체는 굉장히 간단하고 좋습니다. 하지만 저처럼 주로 아이패드를 활용해서 논문을 읽는 사람에게 default 세팅은 너무 불친절합니다. ios 전용 어플이 있긴 한데요, 모바일에서 annotation 한 것이 (형광펜, 필기 등) pc에서 반영되지 않는 문제가 있기도 하고, 주어진 기본 용량이 너무 작아 돈을 내지 않고서는 쓰기 어려운 상황이었습니다. 그래서 오늘은 Zotero를 다른 드라이브와 연동하여 10GB를 활용하는 방법에 대해 간단 정리해드리겠습니다! (저는 이걸 세팅한다고 몇 시간을 날렸는지 ..

2024.02.05· 딥러닝

안녕하세요, chanmuzi입니다! 인공지능 분야에 관심이 많은 분들은 특히나 최신 뉴스나 기술에 관심이 많습니다. 요즘 발전 추세를 보면 한 달만 정신 놓고 있어도 최전선에서 벗어나 있다는 느낌을 받을 정도로 많은 것들이 쏟아져 나오고 있죠 😇 그래서인지 가끔 저에게 어떤 수단들로 최신 뉴스/기사/논문을 접하게 되는지 질문을 주시는 분들이 있더라구요. 다양한 최신 소식을 접할 수 있는 루트들은 사실 엄청나게 많은데요! 처음에는 어떤 게 스스로에게 도움이 될지는 알기 어렵다 보니 다른 사람들이 공유해 주는 것만 겨우 확인하게 되죠. 그래서 오늘은 제가 어떤 루트들로 인공지능 관련 뉴스들을 보는지, 그리고 최신 논문들을 찾아 읽게 되는지 공유드리고자 합니다!! 나름 1년 반이 넘는 시간 동안 엄선한 사이트..

GPT-4의 토큰별 예측 확률을 확인할 수 있을까? (부분적으로 가능하다!)

2024.02.03· 딥러닝

공개가 되어 있나..? 🤔 최근에 논문을 읽다가 궁금한 점이 생겼습니다. 바로 proprietary models, 즉 기업들이 공개하지 않고 API를 통해 추론 결과만을 제공하는 모델들에서 '토큰별 예측 확률값을 뽑아낼 수 있을지'에 대한 의문이었습니다. Allen institute of AI가 연구한 Tuning Language Models by Proxy라는 논문에서는 Proxy-tuning이라는 개념을 제시합니다. (해당 논문 리뷰 링크: https://chanmuzi.tistory.com/472) 이 연구에서는 공개되지 않은 모델들을 활용할 수 있는 방법에 대한 내용을 다룹니다. 최종적으로 어떤 토큰에 대한 확률을 구하여 output을 만들어 낼 때, 이 확률만 알더라도 특정 태스크에 대한 퍼포먼..

<Distillation, Decoding> [Proxy-tuning] Tuning Language Models by Proxy (2024.01)

2024.01.29· 딥러닝

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Allen Institue for AI] - a lightweight decoding-time algorithm, proxy-tuning을 제안 - output vocabulary에 대한 prediction만을 활용하는 테크닉 - 사이즈가 작은 두 모델의 확률 분포차를 큰 베이스 모델에 반영하는 방식으로, 본 논문에서는 Llama 패밀리 모델들을 사용 1. Introduction LLM을 직접 학습시키는 것은 너무나도 많은 비용을 필요로 하기도 하고, 사실 요즘엔 애초에 접근 자체가 불가능한 경우가 많습니다. 회사 이름값을 못하는 OpenAI의..

티스토리툴바