'ChatGPT' 태그의 글 목록

GPT-4의 토큰별 예측 확률을 확인할 수 있을까? (부분적으로 가능하다!)

2024.02.03· 딥러닝

공개가 되어 있나..? 🤔 최근에 논문을 읽다가 궁금한 점이 생겼습니다. 바로 proprietary models, 즉 기업들이 공개하지 않고 API를 통해 추론 결과만을 제공하는 모델들에서 '토큰별 예측 확률값을 뽑아낼 수 있을지'에 대한 의문이었습니다. Allen institute of AI가 연구한 Tuning Language Models by Proxy라는 논문에서는 Proxy-tuning이라는 개념을 제시합니다. (해당 논문 리뷰 링크: https://chanmuzi.tistory.com/472) 이 연구에서는 공개되지 않은 모델들을 활용할 수 있는 방법에 대한 내용을 다룹니다. 최종적으로 어떤 토큰에 대한 확률을 구하여 output을 만들어 낼 때, 이 확률만 알더라도 특정 태스크에 대한 퍼포먼..

<SSM> Mamba: Linear-Time Sequence Modeling with Selective State Spaces (2023.12)

2023.12.12· Paper Review

관심있는 NLP 논문을 읽어보고 ChatGPT를 이용해 정리했습니다. (요약을 제외한 모든 내용은 ChatGPT가 요약한 내용입니다 😁) 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Carnegie Mellon University, Princeton University] - selective SSMs을 simplified end-to-end neural network architecture로 통합함 - attention 또는 심지어 MLP block을 포함하지 않음 1. Introduction 기초 모델(FMs)의 개요 FMs는 대규모 데이터로 사전 학습된 후 하위 작업에 적용되는 대형 모델로, 현대 머신러닝에서 효과적인 패러다임으로 부상...

<Prompt> LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression (2023.10)

2023.11.30· Paper Review

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Microsoft Corporation] - 길이가 긴 텍스트에서 핵심 정보를 효과적으로 추출할 수 있도록하는 prompt compression 기법, LongLLMLingua - higher performance, much less cost, reduced latency 1. Introduction LLM의 능력을 최대로 끌어내기 위해서 각 downstream task에 적합한 prompt를 design하는 것이 중요하다는 것은 이미 잘 알려져있음 그러나 LLM을 long context scenarios에서 활용하는 것은 다음 문제점들을 야기..

10월 4주차 논문 요약: Ask Again, BitNet, Self-RAG, Meta-CoT, AutoDan, NEFTune, VeRA, Atlas

2023.10.29· Paper Review

NLP 관련 논문을 읽어보고 간단히 정리했습니다(최근 논문 위주로!) 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ Ask Again, Then Fail: Large Language Model's Vacillations in Judgement (2023.10) usechatgpt init success [Nanjing University] - Follow-up Questioning Mechanism을 제안 - Direct Form vs. Progressive Form - ChatGPT, PaLM2-Bison, Vicuna-13B 모델에 대해 실험 LLM의 답변에 의문을 제시하는 프롬프트를 추가로 제공하면, 기존의 판단을 철회하는 경향이 아주 짙음 모델의 답변을 신뢰할 수 있는지에 대한 ..

<CoT> [CoVe] Chain-of-Verification Reduces Hallucination in Large Language Models

2023.09.26· Paper Review

최근(2023.09)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Meta AI] LLM의 hallucination을 줄이기 위한 방법으로 Chain-of-Verification, CoVe를 제안. CoVe는 네 개의 단계로 구성됨. 배경 LLM이 사실이 아닌 것을 마치 사실처럼 표현하는 현상인 hallucination 문제가 심각하다는 것은 이미 잘 알려져 있습니다. 이 현상을 최소화하고자 하는 연구들도 많이 이뤄지고 있구요. 이러한 시도들을 크게 'training-time correction', 'generation-time correction', 'via augmentation'으로 구분할 ..

<Multi-modal> PointLLM: Empowering Large Language Models to Understand Point Clouds

2023.09.09· Paper Review

이 글은 최근(2023.08)에 나온 논문의 요약본을 ChatGPT로 번역한 것입니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success 개요 이 논문은 대형 언어 모델(Large Language Models, LLMs)이 3D 포인트 클라우드를 이해할 수 있도록 확장하는 새로운 연구 방향을 제시합니다. 이로써, 2D 시각 데이터 이상의 새로운 연구 영역이 열립니다. 중심 문제 기존의 대형 언어 모델은 자연어 처리에는 능숙하지만, 3D 구조를 이해하는 능력은 부족합니다. 2D 이미지를 위한 LVLMs는 활발히 연구되고 있지만, 3D로 확장되지 않습니다. 이러한 한계는 3D 환경에서의 객체 인식 및 상호 작용과 같은 작업에 그 응용을 제한합니다. 또..

티스토리툴바