chanmuzi

<LLM> How Is ChatGPT’s Behavior Changing over Time?

2023.07.21· Paper Review

최근(2023.07)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Stanford University] GPT-3.5와 GPT-4의 2023년 3월 vs 6월 버전을 비교. 네 개의 태스크를 통해 GPT가 이전에 비해 열등한 성능을 보인다는 것을 검증 배경 ChatGPT의 성능이 입증된 이후로 OpenAI의 API를 활용하여 연구를 하거나 서비스를 만드는 것이 아주 보편적인 방식으로 자리잡았습니다. 그런데 흥미로운 것은 이 API로 배포되는 모델의 버전이 업데이트된다는 것이었죠. 사실 어떤 식으로 어떤 데이터들로 학습을 하는지에 대해서는 공식적으로 밝혀진 바가 없기에 미스테리로 남은 부분이지만, ..

<Multi-modal> ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

2023.07.19· Paper Review

예전(2021.02)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ 이미지 feature 추출에서 놓치게 되는 효율성/속도, 그리고 표현력을 보완하기 위한 방법으로 Vision-and-Language Transformer (ViLT) 모델을 고안. image에 patch 개념을 활용하여 연산량을 획기적으로 줄일 수 있었음 배경 현재 대중(?)에게 가장 많이 사용되는 멀티모달 모델 중 하나인 ViLT입니다. 인공지능 모델이 서로 다른 두 modality의 정보를 이해하기 위해서는 각각의 feature embedding을 합치는 과정이 필요합니다. 즉 이미지 feature와 텍스트 feature를 적절히 조합하는 것이 중요한 것이죠. 그런데 이미..

<LLM> Lost in the Middle: How Language Models Use Long Contexts

2023.07.17· Paper Review

최근(2023.07)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Standford University] multi-document QA와 key-value retireval에서, query와 관련된 정보가 context의 시작, 또는 끝에 위치하는 것이 유리하다. 이 경향은 context가 길어질수록 명확해지기 때문에, context의 길이를 x축으로 삼고 모델 성능을 y축으로 삼는 그래프는 U자 curve로 그려진다. 배경 최근 LLM을 언급하면 빠질 수 없는 이야기는 처리 가능한 입력 길이입니다. 이를 늘리기 위해서 다양한 연구가 이뤄지고 있는데, 실제로 참조해야 할 문서가 많아질수록 모델의..

TensorFlow Korea LLM Day 후기 (23.07.13 (목)) feat. 인공지능위크 2023

2023.07.15· 후기

이번 주 목요일, 삼성역에서 진행하는 TensorFlow Korea LLM Day 행사에 다녀왔습니다! 사실 저는 TensorFlow로 공부를 거의 안 해봐서 잘 모르는데, 주제가 LLM이라 재밌을 것 같아서 신청해서 다녀왔죠 ㅎㅎ 심지어 구체적인 내용이 뭔지 공개도 안 됐었는데 무지성 등록했습니다 ㅋㅋㅋ 😁 낮 시간에는 구글이 진행하는 인공지능위크가 있고 여기에도 사전등록을 했었는데, 일을 빼기가 어려울 것 같아서 저녁에만 참여했습니다. 그래서 당연히 TensorFlow 굿즈를 줄 거라고 생각했는데 Google 굿즈를 나눠주시더라고요 ㅋㅋㅋㅋ (TensorFlow와 무슨 연관성이 있는 것인지는 아직도 미스테리고 남아 있습니다) 또 Upstage라는 기업을 중심으로 행사가 기획된 것인지 발표자 중 한 분..

<Attention> Focused Transformer: Contrastive Training for Context Scaling

2023.07.15· Paper Review

최근(2023.07)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇‍♂️ usechatgpt init success [Google DeepMind] attention layer가 key, value 쌍으로 이루어진 외부 메모리에 접근. 이를 통해 훨씬 더 긴 입력을 받을 수 있고, 여러 개의 문서에 대해 retrieval 할 수 있게 됨. 이 방식을 Focused Transforemr(FoT)라고 하며, OpenLLaMA(3B, 7B) 대상으로 tuning한 모델, LONGLLAMA를 공개. 배경 LLM은 그 능력이 엄청나지만 의외로 특정 분야에 한정된다는 문제점을 안고 있습니다. 엄청난 양의 데이터와 자원으로 한 번 학습되면, 이를 확장하는 것이..

[대회 홍보] 월간 데이콘 이미지 기반 질의 응답 AI 경진대회

2023.07.10· 딥러닝

안녕하세요, chanmuzi입니다! 지난 게시글에서 데이콘에서 일을 시작하게 됐다는걸 말씀드렸는데요 ㅎㅎ 이번에는 데이콘에서 제가 기획한 첫 대회를 오픈하게 되어서 이를 공유하고자 합니다! https://dacon.io/competitions/official/236118/overview/description 이미지, 그리고 이미지와 관련된 질문이 주어지면 적절한 답변을 반환하는 모델을 구축하는 대회입니다. 일반적으로 Visual Question Answering(VQA)이라고 불리는 태스크이며 대표적인 멀티 모달(multi-modal) 중 하나입니다! 이미지와 텍스트를 함께 이해할 수 있도록 모델링 해야 하는데요, 여기에 필요한 데이터의 수도 적지 않아서 분명 쉽지 않은 과제입니다. 베이스라인도 딥러닝에..

전체 글

티스토리툴바