관심있는 NLP 논문을 읽어보고 간단히 정리했습니다.
혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️
[Gemini Team, Google]
- image, audio, video, text understanding에 있어서 압도적인 능력을 보여주는 multimodal models faimily, Gemini
- MMLU에서 human-expert 이상의 performance를 달성한 최초의 케이스
1. Introduction
- 여러 modalities를 아우르는 능력을 지녔으면서도 각 도메인에서 뛰어난 understanding & reasoning 능력을 갖춘 Gemini 모델을 학습시켰음
- 모델의 크기는 세 종류로 구분됨
- Ultra: for highly-complex tasks
- Pro: for enhanced performance and deployability at scale
- Nano: for on-device applications
- 모델은 messy handwriting을 이해하고 문제의 formulation을 바르게 이해하며, 문제와 해결책을 수학적 typesetting으로 전환할 수 있는 능력도 갖춤
- 또한 Gemini의 reasoning 능력을 search & tool-use와 결합하여 programming problem 등을 수월하게 풀어내기도 함
2. Model Architecture
- Transformer decoder 기반 모델
- audio & visual input과 함께 interleaved된 textual input을 받아들일 수 있도록 학습됨
- 32k context length에 대해 학습
- Nano 시리즈의 경우 두 개 사이즈의 모델로 구분됨 (1.8B / 3.25B)
- 큰 모델로부터의 distillation과 training algorithm을 잘 활용했음
- summarization과 reading comprehension과 같은 다양한 범위의 태스크를 잘 수행
- SentencePiece tokenizer를 활용
3. Training Dataset
- 사전학습 데이터셋은 web documents, books, codes로부터 획득했으며 image, audio, video 데이터를 포함함
- 더 작은 모델일수록 더 많은 토큰에 대해 학습
- heuristic rules & model-based classifiers를 사용하여 모든 데이터셋을 quality filtering
- 또한 harmful context를 제거하는 safety filtering도 수행
4. Evaluation
4.1. Text
- Gemini Pro, Ultra를 external LLM, 이전 모델 PaLM 2 등과 비교
- reasoning, reading comprehension, STEM, coding 등
- MMLU에서 Gemini Ultra가 human performance를 최초로 능가
- chain-of-thought prompting approach를 활용했을 때 가장 놓은 성능을 보임
- 모델의 사이즈에 따라 capability가 비례하는 것이 확인됨 (scability)
- instruction-tuning이 적용된 Gemini Ultra는 machine translation에서도 좋은 성능을 발휘함
- 특히 영어를 다른 언어로 바꾸는 번역 태스크에서 그 성능이 두드러짐
- Gemini 모델들은 32,768 토큰의 시퀀스 길이에 대해 학습되었음
- 시퀀스 위치에 따른 Negative Log Likelihood (NLL)가 지속적으로 감소하는 것이 관측됨
- instruction-tuned Gemimi Pro 모델은 PaLM 2, text-bison보다 더 preferred되는 경향이 확인됨
4.2. Multimodal
- greedy sampling을 활용하며 외부 OCR tools 없이 픽셀 단위로 이해
- 대학 수준의 지식과 복잡한 추론 능력을 요하는 벤치마크에서도 뛰어난 성능을 보임
- 다양한 언어를 동시에 처리하면서 다른 modalities를 한꺼번에 다루는 능력까지 갖추었음
- video clip으로부터 샘플링한 16개의 equally-spaced frames를 모델에게 feed
- YouTube video dataset으로 평가
- zero/few-shot video captioning에서 뛰어난 성능
- intermediate natural language description 없이도 image를 자연스럽게 생성할 수 있음
- few-shot 환경에서 image와 text가 interleaved된 sequence에 대해 image를 생성할 수 있음을 의미
- Gemini Pro 모델이 USM & Whisper 모델을 ASR(Automatic Speech Recognition)과 AST(Automatic Speech Translation) 태스크에서 크게 압도함
5. Discussion and Conclusion
- data와 model training의 careful developments로부터 얻은 performance gain은 모델의 scale이 커지더라도 유효함
- MMLU 벤치마크에서 human-expert performance를 능가
- hallucination에 대한 문제는 아직도 풀어야 할 숙제로 남아 있음
- 현재 SoTA 모델의 능력을 잘 평가하기 위해 더 challenging & robust evalautions 이 필요
6. Insights
"2023년은 ChatGPT로 시작해서 Gemini로 끝났다"는 말이 딱 맞는 것 같습니다.
Gemini의 출시로 인공지능 커뮤니티 전체가 들끓었는데 데모 영상이 편집본이라는게 알려지면서 또 말이 많았죠.
사실 데모 영상이 편집되지 않은 영상이라고 생각하기 어려울 수준이긴 했는데 말이죠.
개인적으로는 앞으로 인공지능 분야가 발전될 방향을 보여주는 트레일러가 아니었을까 싶었습니다.
real-time으로 상호작용하며 domain이나 modality에 제한되지 않는 AI가 나타나지 않을까요?
이 논문은 올해 초 GPT-4의 technical report와 마찬가지로 많은 정보를 담고 있지는 않습니다.
본인들(이 주장하는)의 자랑만을 늘어 놓았달까..?
이에 대해서도 Gemini에게 유리한 방식으로 모델을 평가하고 올려치기 한 것 아니냐는 말도 당연히 나오고 있고..
다른 것보다도 다른 modality의 데이터들이 어떻게 interleaved 된다는 것인지 너무 궁금하네요 🥲
출처 : https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf