Object Detection

Output accurate bounding boxes 이전의 sliding window 기법을 적용하면 연산 자체는 효율적이지만 위처럼 ground truth(실제 정답)에 해당하는 bounding box를 구할 수 없다는 문제점이 발생합니다. YOLO algorithm 이 알고리즘은 주어진 이미지를 19 x 19개로 나누고 각 grid마다 label을 부여해서 학습하는 방식입니다. 강의에서는 편의상 9개의 grid로 나누었습니다. 각 label은 [ Pc, bx, by, bh, bw, c1, c2, c3 ] 로 구성됩니다. (8차원의 output) Pc = 0 인 경우 이전과 마찬가지로 나머지 값들은 'don't care'합니다. 결과적으로 target의 output은 (3, 3, 8) 차원을 갖게 ..
Turning FC layer into convolutional layers 지난 시간까지 알아본 것은 어떻게 이미지 내에서 사물/물체를 탐지할 수 있을까에 대한 것이었습니다. 그런데 한 이미지 내에서 여러 물체를 탐지하기 위해서는 sliding window 기법이 필요했습니다. sliding window 기법은 너무 많은 연산량을 필요로 한다는 문제점이 있었고 이를 해결하기 위해서 FC layer를 Convolutional layer로 바꾸는 기법을 소개하고 있습니다. 모든 노드 간의 연결이 업데이트 되상이 되어 파라미터 수가 굉장히 많은 FC와 달리, Convolutional layer는 필터만 업데이트 대상으로 파라미터 수가 굉장히 적습니다. 따라서 기존에 FC를 거치면서 나오는 출력 형태는 유사하..
1. Landmark Detection 사람의 얼굴은 여러 가지 특징을 갖고 있습니다. 우리는 이 특징들을 기반으로 윤곽을 잡는 등 인식의 정확도를 높일 수 있죠. 예를 들어 눈의 가장 자리, 코의 가장 자리, 입의 가장 자리 등을 캐치할 수 있습니다. 이를 landmark라고 부릅니다. 이 예시에서는 얼굴이라는 사물에 64개의 landmark가 존재하는 경우를 보고 있습니다. 따라서 출력 차원의 벡터는, '이 사진에 얼굴이 있는지 없는지'와 'x, y' 좌표 64개쌍을 포함합니다. 결과적으로 129 차원이 됩니다. 이와 같은 개념을 사람의 신체 구조를 따는데도 적용할 수 있습니다. 2. Object Detction Car detection example 이번에는 한 이미지 내에서 여러 개의 사물을 탐지..
What are localization and detection? 이번에 공부할 내용은 Image classification / Classification with localization입니다. 이는 나중에 배울 Detection에서와 달리 이미지 중앙에 큰 이미지 하나가 있고 이것이 자동차인지 아닌지 구분하는 것이라고 이해하면 쉽습니다. 나중에는 여러 개의 물체가 존재하는 상황에서 차를 인식할 수 있는지에 대해 배우게 됩니다. Classification with localization 만약 이미지를 보행자 / 차 / 오토바이 / 배경, 네 가지로 구분하는 태스크라면 마지막 출력층에서 softmax를 통해 4개 중 가장 확률이 높은 것을 정답으로 고르면 될 것입니다. 하지만 우리는 localization..
chanmuzi
'Object Detection' 태그의 글 목록