관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Gen AI at Meta] - Llama2-7b 모델을 자체 수집된 데이터셋에 대해 instruction-tune한 Llama Guard 모델 공개 - OpenAI Moderation Evaluation, ToxicChat과 같은 기존 벤치마크에서도 우수한 성능 - Llama Guard는 multi-class classification과 generating binary decision score를 수행하는 언어 모델 1. Introduction LLM이 급격하게 성장함에 따라 conversational AI agent에 대한 관심도 엄청나게 ..
llama
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Alibaba, Singapore University] - 다른 source로부터의 정부를 dynamically incorporating 함으로써 LLM을 augment하는 framework, Chain-of-Knolwedge (CoK) - CoK는 구조화된 Wikidata나 table 같은 knowledge source도 이용 가능 1. Introduction hallucination 현상과 updated factual knowledge를 반영하지 못하는 것이 LLM의 단점으로 제기되어 왔음 이를 해결하기 위해 external knowledg..
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Tencent AI Lab] - noisy & irrelevant document, 그리고 unknown scenarios에 대한 RALM의 robustness를 개선한 approach, Chain-of-Noting (CoN) - ChatGPT를 사용하여 training data 생성 후 LLaMA-2 7B 모델 학습 배경 LLM의 능력을 활용하는 방법으로 외부 knowledge source를 이용하는 RAG 방식이 도입. Retrieval-Augmented Language Models (RALMs) Information Retrieval (I..
최근(2023.10)에 나온 논문들을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success Language Models Represent Space and Time (2023.10) [MIT] - LLM은 시공간에 대한 linear representation을 학습할 수 있다. 실험 결과에 따르면 모델이 생성하는(build) representation은 linear하다. 또한 모델 성능은 prompt 변화에 꽤 강건한 모습을 보인다. 도시나 자연적 랜드마크와 같은 다른 종류의 entity 전체를 아울러 이와 같은 경향이 나타난다. linear ridge regression probes Metric : R2 & Spearm..
최근(2023.09)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Meta AI] LLM의 hallucination을 줄이기 위한 방법으로 Chain-of-Verification, CoVe를 제안. CoVe는 네 개의 단계로 구성됨. 배경 LLM이 사실이 아닌 것을 마치 사실처럼 표현하는 현상인 hallucination 문제가 심각하다는 것은 이미 잘 알려져 있습니다. 이 현상을 최소화하고자 하는 연구들도 많이 이뤄지고 있구요. 이러한 시도들을 크게 'training-time correction', 'generation-time correction', 'via augmentation'으로 구분할 ..
최근(2023.08)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️ usechatgpt init success [Meta AI] LLAMA 2를 기반으로 학습된 CODE LLAMA 모델들을 공개. CODE LLAMA, CODE LLAMA - PYTHON, CODE LLAMA -INSTRUCT 세 버전. 각각 7B, 13B, 34B 파라미터 사이즈로 공개. 배경 거대언어모델이 사용한 학습 데이터셋에는 영어 다음으로 많은 비중을 차지하고 있는 것이 python이라는 말이 있습니다. 그만큼 프로그래밍 언어를 학습한 것이 모델의 일반적인 성능 향상에 도움이 된다는 것이 잘 알려져 있습니다. 이에 따라 프로그래밍 언어로 이뤄진 데이터셋을 학습하여 일반..