관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️usechatgpt init success[KAIST]- 사람과 GPT-4의 판단에 근사하는 open-source evaluator LM, Prometheus 2를 공개- direct assesssment와 pair-wise ranking 형식을 둘 다 처리할 수 있음- 유저가 정의한 평가 기준을 반영출처 : https://arxiv.org/abs/2405.015351. Introduction생성형 언어 모델이 크게 주목을 받고 사용됨에 따라 이에 대한 평가를 어떻게 내려야 하는가에 대한 논의가 끊이지 않고 있습니다.예전 언어 모델들은 출력해야 하는 답이 명확히 존재하는 태스크를 수행했..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. (Language & Knowledge Lab의 Retreival 관련)혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️[KAIST, Naver AI, University of Washington, MIT]- GPT-4의 평가 수준에 준하는 완전한 오픈소스 LLM, Prometheus - customized score rubric 기반으로 long-form text를 평가할 수 있는 13B 사이즈의 평가자 LLM, Prometheus- 1K score rubrics, 20K instructions, 100K responses로 구성된 데이터셋, Feedback Collection배경최근 LLM을 evaluator로 사용하고자 하는 시도..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. (Language & Knowledge Lab의 Retreival 관련) 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Evaluation] Prometheus: Inducing Fine-Grained Evaluation Capability in Language Models (2023.10) [KAIST, Naver AI, University of Washington, MIT] - GPT-4의 평가 수준에 준하는 완전한 오픈소스 LLM, Prometheus - customized score rubric 기반으로 long-form text를 평가할 수 있는 13B 사이즈의 평가자 LLM, P..