관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️usechatgpt init success[NC Research]- LLM이 생성한 결과를 평가할 때 존재하는 다양한 bias를 정의 (6개)- EvalBiasBench를 제안. 6개 종류의 bias에 대한 test case를 직접 제작함.- OffsetBias 공개. bias를 낮추는 데 기여할 수 있는 학습용 선호 데이터셋 출처 : https://arxiv.org/abs/2407.06551 1. Introduction최근 LLM이 생성한 텍스트를 LLM으로 평가하는 경우가 굉장히 많아졌습니다.LLM으로 생성하는 텍스트는 종류나 범위가 엄청나게 다양한데 이를 사람이 직접 다 평가하기엔..
evaluation
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️Published as a main conference paper at EMNLP 2023. Code available at this URLusechatgpt init success[University of Washington, AI2, Meta AI]- long-form text generation의 factuality를 평가할 때, binary judgments(supported/unsupported) & huge cost of human evaluatoin 이슈가 존재- 생성 결과를 일련의 atomic facts로 쪼갠 뒤 각 fact를 평가한 결과를 합쳐 score를 구하는 방식..
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️usechatgpt init success[KAIST]- 사람과 GPT-4의 판단에 근사하는 open-source evaluator LM, Prometheus 2를 공개- direct assesssment와 pair-wise ranking 형식을 둘 다 처리할 수 있음- 유저가 정의한 평가 기준을 반영출처 : https://arxiv.org/abs/2405.015351. Introduction생성형 언어 모델이 크게 주목을 받고 사용됨에 따라 이에 대한 평가를 어떻게 내려야 하는가에 대한 논의가 끊이지 않고 있습니다.예전 언어 모델들은 출력해야 하는 답이 명확히 존재하는 태스크를 수행했..