Vision-Based Fall Detection with Convolutional Neural Networks
1. Introduction
낙상인식(fall detection)을 위한 vision-based 논문
주요 기여 항목
1) 논문은 낙상을 위한 행동인식 도메인에서의 첫번째 Transfer learning
2) 환경 변화에도 강인한 optical flow 영상를 입력 영상으로 사용
2. Materials and Methods
이 논문에서의 주요 목표는 아래와 같다.
1. 촬영되는 다양한 환경의 장소에서도 독립적인 시스템을 구현
2. 임의적인 영상 가공을 하는 영상 처리 단계의 최소화
3. 다양한 시나리오에서도 동작하는 일반화된 시스템
첫 번째 목표는 사람의 움직임을 잘 찾아냄으로써 달성할 수 있는데 사람 움직임 탐지에 Optical flow 알고리즘을 사용하였다.
두 번째 목표에서 영상처리 단계는 기존의 영상인식 문제들에서는 좋은 특징을 찾기 위해 인위적인 영상 처리 단계가 필수적이었다. 하지만 딥러닝의 Convolutional Neural Networks(CNN)의 발달로 더 이상 영상 처리 단계가 많이 필요로 하지 않게 되었다. CNN의 구성만 목표에 맞게 잘 구성 된다면 네트워크 내부적으로 좋은 특징들을 찾아주기 때문에, 아무래도 논문의 제목과 같이 이 CNN의 구성을 어떻게 만들었느냐가 가장 중요한 핵심이 될 것이다.
전체 시스템의 구성은 아래 그림처럼 RGB 영상을 Optical flow 영상으로 변환하고, 이 Optical flow 영상을 CNN의 입력값으로 사용하여 특징을 추출한다. 최종적으로 FC-NN 네트워크에서 낙상이 발생되었는지 아닌지를 판별한다.
아래의 (a)그림은 Multiple Cameras Fall Dataset의 주요 영상들이고, (b)그림은 해당 데이터들에 대한 수평으로 이동된 optical flow 영상을 보여준다.
CNN 구성은 VGG-16 구조를 사용하였다. Imagenet dataset으로 학습된 VGG-16 net에서 낙상 dataset으로 fine-tuning을 하였다.
3. Results