저는 지금 데이콘의 ChatGPT 활용 대회에 참여중입니다!
그런데 이 대회의 데이터는 train/test가 각각 약 4만, 약 8만여개에 달하더군요..
(test 데이터가 두 배인 경우는 처음 보는디 🧐)
어쨌든 모델을 구축해서 코랩 환경에서 학습을 진행하는데.. 학습 시간이 꽤 오래 걸린단 말이죠?
물론 자는 동안 돌려도 되지만 역시 코랩에서 돌리는 건 언제 런타임이 끊길지 모른다는 불안감..😱
그래서 캐글 노트북 환경에 구글 드라이브 데이터를 불러와 학습을 돌리면 어떨까 생각해보았습니다.
검색해보니 캐글의 데이터셋을 구글로 불러오는 자료들은 많은데 그 반대는 적더라구요 🥲
열심히 구글링, 검색한 결과(New Bing이시여..🙇♂️)..
구글 드라이브에 저장된 데이터를 캐글로 불러올 수 있게 되었습니다!
그 과정을 정리해서 공유하고자 합니다 ㅎㅎ
1. 구글 드라이브에서 파일의 공유 링크를 생성한다!
우선 구글 드라이브로 접속해서 자신이 공유하고자 하는 파일의 링크를 생성해야 합니다.
이 링크를 이용해서 다운로드 받을 거에요!
제가 가진 train.csv 파일로 예시를 들어보겠습니다.
파일을 우클릭하면 링크 생성 버튼이 있습니다.
클릭하시면 위와 같이 공유 형식이 나옵니다.
원래는 비공개로 되어 있기 때문에 본인만 접속 가능한데요, 이를 '링크가 있는 모든 사용자'로 수정해야 외부에서도 접근이 가능하니까 꼭 변경해주셔야 합니다!
여기서 링크를 복사해주세요.
복사한 링크는 복잡하게 생겼는데요..
https://drive.google.com/file/d/[여기를 따로 복사해주세요]/view?usp=share_link
이 중에서 d와 view 사이의 문자들만 따로 복사해줍니다.
우리는 이걸 id로 사용할거에요.
이제 캐글 노트북으로 가보죠!
캐글 노트북에서 다음 명령어를 입력하고 실행해주세요.
!pip install gdown
설치해보시면 알겠지만 가상환경에 설치할 것을 권장하는 메세지가 뜹니다.
실제로 제가 자료를 찾아볼 때도 !conda install 명령어를 사용하라고 되어 있었는데, 한참이 지나도 결국 작동이 되지 않아서 대체하였습니다.
이렇게 실행해도 파일은 잘 다운로드 되니까 괜찮습니다 ㅎㅎ
다음으로 아까 복사했던 id를 가지고 아래 코드를 입력하고 실행해주세요.
!gdown --id [복사한 내용] # 입력 형태
!gdown --id abcdefghij # 실제 예시
이렇게 입력하시면 금방 다운로드가 됩니다! 👍🏻
그럼 이걸 판다스로 불러오든 뭘 해야겠죠?
어디에 다운로드가 된 것인지 다시 확인해봅니다.
import os
print(os.listdir("/kaggle/working"))
# ['train.csv', '.virtual_documents', '__notebook_source__.ipynb']
현재 작업중인 '/kaggle/working' 디렉토리에 파일이 저장되었습니다.
이 경로를 확인하시고 편한대로 파일을 불러와서 이용하시면 되겠습니다.
이제 저는 코드를 돌려놓고 맘 편히 자러가면 되겠네요 😪
(추론 결과는 내일 확인하는 걸로 ㅎㅎ)
'딥러닝' 카테고리의 다른 글
[PyTorch] nn.Module로 모델 custom하기!! (0) | 2023.04.18 |
---|---|
[PyTorch] AutoModel vs AutoModelForSequenceClassification 비교하기 (BERT 파헤치기!!) (1) | 2023.04.12 |
[Kaggle] OSError, Connection error? 인터넷을 연결하는 방법..(+ GPU 설정) (0) | 2023.02.25 |
BERT와 BERT 파생모델 비교(BERT, ALBERT, RoBERTa, ELECTRA, SpanBERT) (0) | 2023.02.20 |
파이썬 정규표현식 연습(비밀번호 패턴, html 태그 제거) (0) | 2022.11.23 |