chanmuzi

<RAG, Refinement> [CRAG] Corrective Retrieval Augmented Generation (2024.01)

2024.02.06· Paper Review

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [University of Science and Technology of China, Google Research] - Corrective Retrieval Augmented Generation (CRAG)를 제안하여 retrieval이 잘못되었을 때의 문제를 해결 - lightweight retrieval evaluator(T5-large)를 이용하여 retrieved documents에 대한 confidence score를 반환 - large-scale의 web search를 extension으로 활용 - decompose-then-reco..

2024.02.05· 딥러닝

안녕하세요, chanmuzi입니다! 인공지능 분야에 관심이 많은 분들은 특히나 최신 뉴스나 기술에 관심이 많습니다. 요즘 발전 추세를 보면 한 달만 정신 놓고 있어도 최전선에서 벗어나 있다는 느낌을 받을 정도로 많은 것들이 쏟아져 나오고 있죠 😇 그래서인지 가끔 저에게 어떤 수단들로 최신 뉴스/기사/논문을 접하게 되는지 질문을 주시는 분들이 있더라구요. 다양한 최신 소식을 접할 수 있는 루트들은 사실 엄청나게 많은데요! 처음에는 어떤 게 스스로에게 도움이 될지는 알기 어렵다 보니 다른 사람들이 공유해 주는 것만 겨우 확인하게 되죠. 그래서 오늘은 제가 어떤 루트들로 인공지능 관련 뉴스들을 보는지, 그리고 최신 논문들을 찾아 읽게 되는지 공유드리고자 합니다!! 나름 1년 반이 넘는 시간 동안 엄선한 사이트..

<Benchmark, CoT> [Google, REVEAL] A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains (2024.02)

2024.02.04· Paper Review

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Google Research, Google DeepMind] - Open-domain question answering에서 복잡한 Chain-of-Thought (CoT) 추론을 자동적으로 평가할 수 있는 verifiers를 개발 - 이 벤치마크를 REVEAL: Reasoning Verification Evaluation으로 명명 1. Introduction 인공지능 모델이 어떤 질문에 답변할 때 reasoning step을 추가하도록 하면 그 답변의 정확도가 크게 향상된다는 것이 알려지게 되면서 해당 연구가 활발히 이뤄지고 있습니다. 대표..

GPT-4의 토큰별 예측 확률을 확인할 수 있을까? (부분적으로 가능하다!)

2024.02.03· 딥러닝

공개가 되어 있나..? 🤔 최근에 논문을 읽다가 궁금한 점이 생겼습니다. 바로 proprietary models, 즉 기업들이 공개하지 않고 API를 통해 추론 결과만을 제공하는 모델들에서 '토큰별 예측 확률값을 뽑아낼 수 있을지'에 대한 의문이었습니다. Allen institute of AI가 연구한 Tuning Language Models by Proxy라는 논문에서는 Proxy-tuning이라는 개념을 제시합니다. (해당 논문 리뷰 링크: https://chanmuzi.tistory.com/472) 이 연구에서는 공개되지 않은 모델들을 활용할 수 있는 방법에 대한 내용을 다룹니다. 최종적으로 어떤 토큰에 대한 확률을 구하여 output을 만들어 낼 때, 이 확률만 알더라도 특정 태스크에 대한 퍼포먼..

<Pipeline, Rationale> PINTO: Faithful Language Reasoning Using Prompt-Generated Rationales (2023.04)

2024.02.02· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [University of Southern California] - PINTO: prompt-based learning을 통해 rationalize하고, counterfactual regularization을 통해 faithfully reason하는 LM pipleine - 중간 사이즈의 LM을 frozen하고 rationale을 생성할 수 있도록 prompting → 생성된 rationale을 컨텍스트로 이해하고 fine-tuning 1. Introduction 굉장히 재밌는 표현인 것 같은데, reasoning tasks에 대해서 LM의 파라..

<RL, Fine-Tuning> [ByteDance] ReFT - Reasoning with Reinforced Fine-Tuning (2024.01)

2024.01.30· Paper Review

관심 있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [ByteDance Research] - CoT 데이터에 SFT를 적용할 때, 각 질문마다 존재할 수 있는 여러 개의 reasoning paths를 활용하는 방식 - 수학 문제를 푸는 세 개의 벤치마크(GSM8K, MathQA, SVAMP)를 통해 뛰어난 generalizability를 확인 - SFT로 warmup한 이후 PPO를 적용하는 방식인 Reinforced Fine-Tuning을 제안 - 다양한 inference-tim strategies와 결합 가능한 방법론 1. Introduction 지금까지 수학 문제를 푸는 ..

전체 글

티스토리툴바