관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️usechatgpt init success[HPI]- [IDK] 라는 스페셜 토큰을 모델 vocab에 추가- 잘못된 예측에 대한 probability mass를 스페셜 토큰으로 옮겨주는 objective function 도입- 큰 사이즈의 corpus에 대해 objective function 교체 후 self-supervised learning (pre-training) 적용 출처 : https://arxiv.org/abs/2412.066761. IntroductionLLM은 뛰어나지만 아직까지도 hallucination 문제가 해결되지 않고 있죠.이제는 LLM에게서 이러한 문제점이 나..
hallucination
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [University of Science and Technology of China, Google Research] - Corrective Retrieval Augmented Generation (CRAG)를 제안하여 retrieval이 잘못되었을 때의 문제를 해결 - lightweight retrieval evaluator(T5-large)를 이용하여 retrieved documents에 대한 confidence score를 반환 - large-scale의 web search를 extension으로 활용 - decompose-then-reco..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Fudan University, Shanghai Artificial Intelligence Laboratory] - AI assistant가 자신이 답변하지 못할 질문에 대해서는 '모른다'고 답변하는 것이 hallucination을 줄이는 데 중요함 - model-specific한 "I don't know" (Idk) 데이터셋을 구축하고 이를 활용한 것이 유의미한 결과로 이어짐을 입증 1. Introduction LLM은 다양한 태스크를 잘 처리할 수 있다는 강점을 바탕으로 helpfulness를 제대로 발휘하고 있습니다. 그러나 halluci..
최근(2023.09)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Meta AI] LLM의 hallucination을 줄이기 위한 방법으로 Chain-of-Verification, CoVe를 제안. CoVe는 네 개의 단계로 구성됨. 배경 LLM이 사실이 아닌 것을 마치 사실처럼 표현하는 현상인 hallucination 문제가 심각하다는 것은 이미 잘 알려져 있습니다. 이 현상을 최소화하고자 하는 연구들도 많이 이뤄지고 있구요. 이러한 시도들을 크게 'training-time correction', 'generation-time correction', 'via augmentation'으로 구분할 ..
최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success 다양한 특성을 반영할 수 있는 프롬프트를 이용해 LLM으로 NLP task를 위한 데이터 생성하기 배경 LLM이 활용되는 여러 분야 중 하나는 데이터 생성(generator)입니다. 문장 단위의 텍스트를 생성하는 능력이 워낙 탁월하고 그 품질이 사실상 보장된 것이기 때문에 적은 비용으로 고품질 데이터를 생성할 수 있음이 알려졌습니다. 그러나 기존의 연구들은 단순히 class-conditional prompt에 의존하고 있을 뿐이라고 지적합니다. 이에 의해 생성되는 데이터의 다양성이 보장되지도 않고 텍스트를 생성하는 LLM의 편향을 그..
최근(2023.06)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Qualcomm AI Research] 자연어를 바탕으로 갖춘 연역적 추론의 포맷, Natural Program을 제작. step-by-step, CoT 방식에 있어서 더 철저한 reasoning step을 생성할 수 있게 되었음. 배경 Chain of Thought(CoT) 기법은 기존의 LLM들이 진가를 발휘할 수 있도록 돕는 방법으로 LLM계에 큰 파장을 일으켰습니다. 확률 분포를 기반으로 다음 토큰을 예측하기만 했던 LLM의 예측 방식이 정말 사람과 유사한 논리적 구조를 갖출 수 있게끔 도와준 것처럼 보이기도 했죠. 예를 들..