GQA

10월 3주차 논문 요약: GQA, LLM, LLMLingua, LLeMA, ToRA

2023.10.21· Paper Review

최근(2023.10)에 나온 논문들을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints (2023.05) [Google Research] Multi-head Attention(MHA)만큼의 품질이 보장되고, Multi-query Attention(MQA)만큼의 속도를 낼 수 있는 Group-query Attention(GQA)를 제안 기존 Transformer 아키텍쳐에서 사용되는 Multi-head Attention의 경우 메모리 사용량이 지나치게 많이 요구되어 이를 적용하기가 점점 더 어려워지는 추세였음 이..

10월 2주차 논문 요약: Space and Time, RA-DIT, Mistral 7B

2023.10.15· Paper Review

최근(2023.10)에 나온 논문들을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success Language Models Represent Space and Time (2023.10) [MIT] - LLM은 시공간에 대한 linear representation을 학습할 수 있다. 실험 결과에 따르면 모델이 생성하는(build) representation은 linear하다. 또한 모델 성능은 prompt 변화에 꽤 강건한 모습을 보인다. 도시나 자연적 랜드마크와 같은 다른 종류의 entity 전체를 아울러 이와 같은 경향이 나타난다. linear ridge regression probes Metric : R2 & Spearm..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

GQA

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역