본 레포트는 최근 자연어 처리(NLP)와 정보 검색(IR) 분야에서 핵심적인 역할을 하는 Text Embedding 모델의 발전 흐름을 다룹니다.특히 약지도 학습(Weakly-Supervised Learning), 다단계 대조 학습(Multi-stage Contrastive Learning), 하이브리드 검색(Hybrid Retrieval), 그리고 효율적인 표현 학습(Representation Learning) 기술을 중심으로 최신 모델들의 아키텍처와 방법론을 분석했습니다.1. Embedding 모델의 역할과 중요성Embedding 모델은 텍스트 데이터를 저차원의 잠재 공간(Latent Space)으로 인코딩하여 의미론적(Semantic) 유사성을 계산할 수 있게 하는 DNN 애플리케이션의 핵심 형태입..
전체 글
관심 있는 NLP 논문을 읽어보고 NotebookLM으로 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️usechatgpt init success[Anthropic]- 모델의 학습 데이터에 유해한 내용을 포함하는 poisoning attacks 방식은 '고정된 숫자의 샘플'로 성공할 수 있다- 이때 학습에 사용된 clean data와 poison samples 간의 비율은 중요하지 않다. 즉, 더 많은 clean data로 학습한 사이즈가 큰 모델도 '고정된 숫자의 poison sample'로 attack 가능하다. 출처 : https://arxiv.org/abs/2510.07192[NotebookLM 보고서]대규모 언어 모델(LLM) 포이즈닝 공격의 확장성: 공격..
2025년 7월 12일 (토),대학생 인공지능 연합동아리인 투빅스의 컨퍼런스 데이에 업스테이지측으로 참관한 후기입니다.(보니까 블로그도 있고 인스타도 있네요!) 제가 투빅스를 대학교 졸업하기 전에도 알고 있었는지는 모르겠지만..AI에 관심을 갖게 되었을 때 동아리 활동을 엄청 하고 싶었는데 전국구 동아리가 두 개 정도 있더라고요.그게 보아즈랑 투빅스였는데 졸업한 아저씨가 활동할 수 있는 건 아니었어서.. 아쉬웠던 기억이 있습니다. 인공지능에 몸을 담기 시작한 이후 알게 된 친구 한 명이 투빅스에서 활동한 적이 있어서해당 동아리에서 활동하는 분들 몇을 알게 되었는데 이번에도 우연히 인연이 닿았습니다.(학생이고 직장인이고 인공지능 업계는 참 좁은 것 같습니다 😅) 저희 회사는 교육 사업을 꾸준히 하고 있..
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️usechatgpt init success [Mem0]- single-hop, temporal, multi-hop, open-domain 카테고리로 memory system 평가 (LOCOMO benchmark)- 생성까지 걸리는 시간과 생성 퀄리티 둘 다 잡은 방식, Mem0 & Mem0(g) 제안- memory 업데이트, 추가 등 관리 전반에 LLM을 활용한다는 특징 출처 : https://arxiv.org/abs/2504.19413v11. IntroductionLLM은 학습이 끝난 시점 이후 발생한 사건이나 정보들에 대해 접근할 수 없기 때문에,최신 정보나 도메인 특화된 정보를 제..
관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 🙇♂️usechatgpt init success[Renmin Univ. of China]- diffusion model을 scratch부터 pre-training & supervised fine-tuning (SFT) 적용한 LLaDA- 일부 벤치마크에서 Autoregressive models (ARMs)보다 강한 scalability를 보여줌 출처 : https://arxiv.org/abs/2502.099921. Introduction최근 Diffusion(이하 디퓨전)을 LLM에 적용한 모델이 (상대적으로 작은 사이즈-7~8B-에서) 뛰어난 성능을 보여주며 화제가 되고 있습니다.디퓨전은..
약 5개월 정도 스픽 앱을 내돈내산 해서 영어 공부한 후기를 남겨봅니다.작년(2024)에 크게 할인 할 때 AI 피드백까지 다양하게 받을 수 있는 버전을 구독했고 약 5개월이 흘렀네요.정확한 금액이 기억나지 않긴 한데 1년 동안 20만원 초반 정도에 해당하는 금액을 지불했습니다. 돈을 사용한만큼 영어 실력이 늘었는가 하면 그렇지 않은 것 같습니다..시스템 자체는 엄청 좋은데 제가 열심히 안한 게 가장 큰 이유고요 😂개인적으로 시간이나 노력을 더 투자하면 좋을 거 같은데 그러려면 생각보다 품이 더 드는 기분입니다.. 오늘부로 154일 연속으로 공부했고 총 1763분을 투자했네요.하루 평균 10분 조금 더 공부한 셈입니다. 저는 주로 씻고 나서 로션 바르고 말리는 동안에 틀어 놓고 공부를 많이 하게 되더라..