dataset

· Paper Review
관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Samsung Research] - strong LLM을 사용하여 낮은 품질의 데이터를 자동적으로 거르는 simple & effective data selection strategy. - 52K Alpaca 데이터셋으로부터 정제한 9K 고품질 데이터셋으로 학습한 모델, AlpaGasus - 다른 instruction-tuning data에도 적용 가능하며, 학습 속도는 빠르면서도 더 좋은 학습 결과를 보임 배경 언어 모델 학습에 있어서 데이터 품질의 중요성은 점점 더 높아지고 있는 추세 instruction 데이터셋을 사람이 직접 생성하는 것은..
· Paper Review
최근에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success 영어를 중심으로 학습된 다국어 모델들과 달리 한국어에 집중 강화된 모델인 Polyglot Korean 모델을 소개. 배경 LLM이 엄청난 능력을 바탕으로 다양한 태스크를 굉장히 잘 처리함에도 불구하고 소수 언어들에 대해서는 약세를 보인다는 한계를 아직도 극복하지 못했습니다. 인공지능 모델은 데이터를 학습 재료로 사용하기 때문에, 학습 과정에서 해당 언어의 데이터가 적다면 당연히 좋은 성능을 발휘하기가 쉽지 않습니다. 따라서 multi-lingual 모델을 억지로 만드려고 하기보다는 특정 언어에 집중한 모델을 만드는 것이 효율적이라고 느끼는 듯합니다...
· PCA/1주차
1. Mean of a dataset 데이터가 늘어날수록 흐려진다(blur) mean은 데이터를 대표하는 값으로 데이터셋에 포함되지 않는 값이 mean이 될 수 있다. 어떤 데이터셋의 모든 원소를 더하고 그 개수로 나누어주면 mean(평균)이 된다. 설명했던 것처럼 데이터셋에 포함되지 않는 값인 3.8이 이 데이터셋을 대표하는 값이 된다. 2. Mean of datasets 단순한 집합의 평균을 구하기(1문제) 벡터끼리의 평균을 구하기(3문제) 벡터에 scalar를 더하거나 곱한 뒤에는 평균이 어떻게 변할까? 표본 평균 구하기(1문제) n-1번째의 표본 평균에 특정 데이터가 추가되었을 경우 n번째의 표본 평균을 식으로 나타내기 평균(mean)의 정의를 전개하여 식을 조작해야 한다. 2차원을 1차원으로 ..
chanmuzi
'dataset' 태그의 글 목록