본 발명은 외부 환경 변화에 따른 모달리티의 결합 또는 선택을 통하여 사용자 인식 성능을 향상시키기 위한 방법을 제공한다. 본 발명은 멀티 모달 사용자 인식 방법에 관한 것으로, 얼굴 모델 템플릿(face model templates)을 이용하여 입력 영상의 얼굴 특징 벡터에 대한 얼굴 유사도를 계산하는 단계; 음성 모델 템플릿(speech model templates)을 이용하여 입력 오디오의 음성 특징 벡터에 대한 음성 유사도를 계산하는 단계; 상기 입력 영상과 연관된 조명의 크기를 이용하여 얻어진 제1 가중치를 상기 얼굴 유사도에 적용하여 제1 값을 생성하는 단계; 상기 입력 오디오와 연관된 잡음의 크기를 이용하여 얻어진 제2 가중치를 상기 음성 유사도에 적용하여 제2 값을 생성하는 단계; 및 상기 제1 값 및 상기 제2 값을 결합하여 얻어진 최종 스코어를 이용하여, 사용자를 인식하는 단계를 포함하는 멀티 모달 사용자 인식 방법을 제공한다.