최근 생전 처음 보는 에러덕분에 꽤나 당황하게 됐습니다.
사용자의 환경이나 작성한 코드에 따라 당연히 해결방법이 달라질 수 있겠지만,
저는 torch의 DataLoader에서 배치 사이즈를 줄임으로써 에러를 해결할 수 있었습니다.
사실 병렬 처리 관련해서 어쩌고 저쩌고 잘못됐다, 쓰여있기는 한데..
찾아보니까 의외로 데이터의 사이즈가 너무 커서 위 에러가 발생한 케이스가 있더라구요.
저 역시 데이터를 torch의 Dataset, DataLoader로 불러와 모델에 입력으로 주는 구조의 코드를 작성했습니다.
코드를 실행하기 전까지는 얼마만큼의 메모리를 차지할지 계산하는건 굉장히 어렵잖아요?
보통 실행해서 OOM이 뜨거나 에러가 발생하면 그거에 맞춰서 값들을 조정하곤 하는데..
위 에러 메세지를 보고서는 이런 류의 접근이 해결 방법이 될 수 있을 거라고 생각하지 못했네요 ㅋㅋ
참고로 저는 이미지 데이터를 입력으로 받는 모델을 사용했습니다.
동일한 에러를 해결했던 과거의 사례들을 보면 대부분 저처럼 이미지 관련 모델을 사용할 때 이 에러를 마주치게 된 것 같아보였습니다.