'Paper Review' 카테고리의 글 목록

<LLM, Diffusion> Large Language Diffusion Models (2024.02)

2025.03.16· Paper Review

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️usechatgpt init success[Renmin Univ. of China]- diffusion model을 scratch부터 pre-training & supervised fine-tuning (SFT) 적용한 LLaDA- 일부 벤치마크에서 Autoregressive models (ARMs)보다 강한 scalability를 보여줌 출처 : https://arxiv.org/abs/2502.099921. Introduction최근 Diffusion(이하 디퓨전)을 LLM에 적용한 모델이 (상대적으로 작은 사이즈-7~8B-에서) 뛰어난 성능을 보여주며 화제가 되고 있습니다.디퓨전은..

<Uncertainty> I Don't Know: Explicit Modeling of Uncertainty with an [IDK] Token (2024.12) (NeurIPS 2024)

2024.12.27· Paper Review

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️usechatgpt init success[HPI]- [IDK] 라는 스페셜 토큰을 모델 vocab에 추가- 잘못된 예측에 대한 probability mass를 스페셜 토큰으로 옮겨주는 objective function 도입- 큰 사이즈의 corpus에 대해 objective function 교체 후 self-supervised learning (pre-training) 적용 출처 : https://arxiv.org/abs/2412.066761. IntroductionLLM은 뛰어나지만 아직까지도 hallucination 문제가 해결되지 않고 있죠.이제는 LLM에게서 이러한 문제점이 나..

<Structured Outputs> Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models (2024.10)

2024.10.20· Paper Review

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️usechatgpt init success[Appier AI Research, National Taiwan University]- LLM에게 JSON, XML과 같은 structured format을 지키도록 강제하는 경우, reasoning task에서 모델 성능이 하락한다.- 하지만 분류 태스크에서는 오히려 성능이 향상될 수 있다.- 즉, 어떤 형식을 강제하는 것이 모델 성능에 영향을 주는지는 task by task로 다르다. 출처 : https://arxiv.org/abs/2408.024421. IntroductionLLM은 뛰어난 퍼포먼스를 보이고 있음에도 아직까지 실제 app..

<Bias> OffsetBias: Leveraging Debiased Data for Tuning Evaluators (2024.07)

2024.10.03· Paper Review

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️usechatgpt init success[NC Research]- LLM이 생성한 결과를 평가할 때 존재하는 다양한 bias를 정의 (6개)- EvalBiasBench를 제안. 6개 종류의 bias에 대한 test case를 직접 제작함.- OffsetBias 공개. bias를 낮추는 데 기여할 수 있는 학습용 선호 데이터셋 출처 : https://arxiv.org/abs/2407.06551 1. Introduction최근 LLM이 생성한 텍스트를 LLM으로 평가하는 경우가 굉장히 많아졌습니다.LLM으로 생성하는 텍스트는 종류나 범위가 엄청나게 다양한데 이를 사람이 직접 다 평가하기엔..

<Inference, KV Cache> [vLLM] Efficient Memory Management for Large Language Model Serving with PagedAttention (2023.09)

2024.09.02· Paper Review

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️usechatgpt init success[UC Berkeley, Stanford University]- 운영체제에서 가상메모리와 페이징 기법에 착안한 PagedAttention을 제안- 이를 기반으로 하는 vLLM을 개발했는데, (1) KV 캐시 메모리의 낭비가 거의 없고 (2) 불필요한 메모리 사용을 최소화 한다는 특징이 있음 출처 : https://arxiv.org/abs/2309.06180깃허브 : https://github.com/vllm-project/vllm1. Introduction최근 가장 감명 깊게 읽은 PagedAttention에 대해 간단히 리뷰를 해보려고 합니다...

<Evaluation, Bias> Judging the Judges: A Systematic Investigation of Position Bias in Pairwise Comparative Assessments by LLMs (2024.06)

2024.08.22· Paper Review

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️usechatgpt init success[Dartmouth College]- position bias를 정량적으로 평가할 수 있도록 돕는 프레임워크를 개발- MTBecnh와 DevBench의 22개 태스크에 대해 40개 모델로 답변을 생성하고, 이를 9개의 평가 모델로 평가하여 실험한 결과- position bias가 단순한 random variation이 아니라 특정한 모델 간 관계를 지닌다는 것을 입증 출처 : https://arxiv.org/abs/2406.07791v11. Introduction생성형 언어 모델의 성장은 이를 다양한 태스크에 활용하는 관행으로 이어졌습니다.LLM..

티스토리툴바