최근에 나온 논문을 읽어보고 간단히 정리했습니다.
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
영어를 중심으로 학습된 다국어 모델들과 달리 한국어에 집중 강화된 모델인 Polyglot Korean 모델을 소개.
- 배경
LLM이 엄청난 능력을 바탕으로 다양한 태스크를 굉장히 잘 처리함에도 불구하고 소수 언어들에 대해서는 약세를 보인다는 한계를 아직도 극복하지 못했습니다.
인공지능 모델은 데이터를 학습 재료로 사용하기 때문에, 학습 과정에서 해당 언어의 데이터가 적다면 당연히 좋은 성능을 발휘하기가 쉽지 않습니다.
따라서 multi-lingual 모델을 억지로 만드려고 하기보다는 특정 언어에 집중한 모델을 만드는 것이 효율적이라고 느끼는 듯합니다.
본 논문에서는 여러 언어들 중에서도 한국어를 선택했는데, 그 이유는 EleutherAI의 창립자 중 한 명이 한국인으로서 데이터셋을 쉽게 구할 수 있으며 실제 기업들의 니즈가 존재하는 언어이기 때문이었다고 합니다.
또한 논문에서 다룬 모델은 최대 12.8 billion의 파라미터 크기를 갖고 있다고 합니다.
- 데이터셋
데이터셋과 관련하여는 TUNiB(튜닙)과 협력했다고 합니다.
NLP 분야에서 아주 유명한 기업과 협력하여 데이터셋을 확보했다고 하니 확실히 신뢰도가.. ㅎㅎ
데이터 수집 경로는 다양한데, 블로그 포스트가 압도적으로 많고 뉴스 기사, 모두의 말뭉치, 사전 등 여러 경로에서 수집했으며 전처리 이후에도 총 863GB나 되는 양이었다고 합니다.
또한 학습을 위해 필요한 데이터가 어떤 것인지 구분하는 여러 기준에 대해 설명하는데, NLP 태스크를 위해 특수 제작(?)된 데이터들도 활용했다는 점이 재밌는 것 같습니다.
아무래도 모두의 말뭉치와 같은 데이터들이 여기에 포함되는 듯합니다.
- 모델 및 결과
모델은 EleutherAI의 GPT-NeoX를 사용했고 A100 256장을 사용햇다고 하네요…ㄷㄷ
상대적으로 작은 1.3B, 3.8B 사이즈의 모델들은 일정 스텝이 넘어가면 생성 성능이 엉망이 되는 현상(broken generation)이 발견되었고, 사이즈가 큰 12.8B이 여러 태스크에 걸쳐 우수한 성능을 보였다고 합니다.
모델의 성능을 테스트 해 본 데이터셋들도 다양한데, 인과추론, 감성 분석 등 유명 데이터셋을 기반으로 테스트했다고 합니다.
- 한계점
생성 모델이라면 피해갈 수 없는 문제점 중 하나는 통계적으로 가장 타당해보이는 답을 내는 것이 반드시 정답이 될 수 없다는 점입니다.
또한 생성 모델이 뱉어내는 공격적이거나 편향적인 표현들도 항상 문제가 되고 있고, 이 모델 역시 여기에서 완전히 벗어날 수 있었던 것은 아니라고 합니다.
한편 하드웨어 세팅이나 실험 설계 단계에서의 잘못으로 인해 학습 속도가 더뎌지고 학습 결과에 악영향을 준 점들도 언급했습니다.
- 개인적 감상
technical report이기 때문에 뭐 엄청난 것을 기대하기는 어렵지만, 사실 튜닙과 협력했다는 것 말고는 딱히 흥미로운 내용이 없었습니다.
기존의 데이터들에 대해서는 curate라고 표현하고, 본인들이 만든 데이터셋에 대해서는 refined라는 표현을 사용했는데, 솔직히 이게 무슨 차이가 있는지 잘 와닿지 않았던 것 같습니다.
구체적인 설명이 포함된 논문이 있다면 그것을 읽어봐야겠습니다.
출처 : https://arxiv.org/abs/2306.02254