논문리뷰/이상 행동인식 관련

3D Convolutional Neural Networks for Human Action Recognition

pagebox 2018. 11. 24. 20:57

논문 제목 : 3D Convolutional Neural Networks for Human Action Recognition
논문지: IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE
발행연도 : 2013년

■ 요약

  • 감시카메라 영상에서의 사람 행동 인식 방법 연구 논문
  • 기존의 2차원 영상을 다루던 Convolutional Neural Networks(CNN) 모델을 시계열 데이터를 고려하기 위해 3차원 CNN모델을 제안함
  • 3D CNN 모델 뿐만 아니라 모델 정규화 및 다양한 예측 모델이 결합된 방법들을 제안함
  • 최종적으로 각 모델들에 대해서 감시카메라 영상에서의 인식결과를 비교 평가함
■ 3D 컨볼루션
  • 기존의 2D 컨볼루션이 그림 (a)와 같다면, 본 논문에서의 3D 컨볼루션은 그림 (b)와 같이 2D 컨볼루션 개념과 인접한 프레임과의 컨볼루션 연산이 결합된 구조를 제안하고 있음
 


  • 기존의 2D 컨볼루션 방법에서 Feature map을 만들 때, 각 Feature map을 만들 때 사용되는 커널 weight가 공유 되지 않듯이, 본 논문에서의 제안하는 3D CNN 모델에서도 아래 그림과 같이 weight가 공유되지 않는 형태로 Feature map이 생성됨 

■ 3D 컨볼루션 구조

  • 본 논문에서 제안하는 3D CNN 구조는 아래 그림과 같다.
  • 입력 값은 7장의 60x40 크기의 2차원 영상이다
  • Input에서 H1 층으로 넘어가는 부분은 hardwired 커널을 사용하여 33개의 feature map을 만든다고 나와있다.
  • 여기서 말하는 hardwired 커널은 저자의 노하우가 반영된 커널이라고 생각하면 되며, 또는 입력 영상을 전처리 하는 과정으로 생각하면 좋을 것이다.
  • 이 hardwired 커널은 수평과 수직 방향 각각에 대해 회색조 영상의 기울기 값과 optical flow 값을 구한다.
  • 논문에서 말한 hardwired 커널 방법은 4가지로 7장의 영상에 적용할 경우 28장의 feature map이 나오는데, 나머지 5장에 대한 설명은 나와있지 않다..
  • H1층에서 C2층으로 이어지는 컨볼루션 과정은 앞서 설명한 바와 같이 3D 컨볼루션이 이루어진다.
  • 기본적으로 7x7x3크기의 커널로 되어 있으며, 7x7은 2D영상의 커널 크기이고 3은 3장의 인접한 영상을 뜻한다.


■ 모델 정규화
  • 모델 정규화에서는 영상에서 보이는 다양한 모션을 고려하기 위해 "Auxiliary outputs"을 추가함
  • Auxiliary feature extractors에는 "bag-of-words"와 "SIFT" 방법을 이용하여 추출함

■ 실험 데이터
  • TRECVID 2008 데이터 샘ㅍ


■ 결과