evaluation

· Paper Review
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️usechatgpt init success[NC Research]- LLM이 생성한 결과를 평가할 때 존재하는 다양한 bias를 정의 (6개)- EvalBiasBench를 제안. 6개 종류의 bias에 대한 test case를 직접 제작함.- OffsetBias 공개. bias를 낮추는 데 기여할 수 있는 학습용 선호 데이터셋 출처 : https://arxiv.org/abs/2407.06551 1. Introduction최근 LLM이 생성한 텍스트를 LLM으로 평가하는 경우가 굉장히 많아졌습니다.LLM으로 생성하는 텍스트는 종류나 범위가 엄청나게 다양한데 이를 사람이 직접 다 평가하기엔..
· Paper Review
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️Published as a main conference paper at EMNLP 2023. Code available at this URLusechatgpt init success[University of Washington, AI2, Meta AI]- long-form text generation의 factuality를 평가할 때, binary judgments(supported/unsupported) & huge cost of human evaluatoin 이슈가 존재- 생성 결과를 일련의 atomic facts로 쪼갠 뒤 각 fact를 평가한 결과를 합쳐 score를 구하는 방식..
· Paper Review
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️usechatgpt init success[KAIST]- 사람과 GPT-4의 판단에 근사하는 open-source evaluator LM, Prometheus 2를 공개- direct assesssment와 pair-wise ranking 형식을 둘 다 처리할 수 있음- 유저가 정의한 평가 기준을 반영출처 : https://arxiv.org/abs/2405.015351. Introduction생성형 언어 모델이 크게 주목을 받고 사용됨에 따라 이에 대한 평가를 어떻게 내려야 하는가에 대한 논의가 끊이지 않고 있습니다.예전 언어 모델들은 출력해야 하는 답이 명확히 존재하는 태스크를 수행했..
chanmuzi
'evaluation' 태그의 글 목록