본 발명은 3D 이미지에 대한 분석을 위한 다중 인스턴스 학습 장치로서, 다중 인스턴스 학습 모델이 저장된 메모리, 메모리와 전기적으로 연결된 적어도 하나의 프로세서를 포함하고, 다중 인스턴스 학습 모델은, 입력되는 3D 이미지의 2D 인스턴스들(instances) 각각의 특징 맵(Feature Map)을 도출하는 합성곱(Convolution) 블록, 합성곱 블록으로부터 도출된 특징 맵으로부터 인스턴스들의 공간 어텐션 맵(Spatial Attention Map)을 도출하는 공간 어텐션 블록, 특징 맵과 공간 어텐션 맵의 합성 결과를 입력 받아 인스턴스마다의 어텐션 스코어를 도출하고, 어텐션 스코어에 따라 인스턴스들의 임베딩들(embeddings)을 종합하여 3D 이미지에 대한 총합 임베딩(aggregated embedding)을 도출하는 인스턴스 어텐션 블록(Instance Attention Block)을 포함할 수 있다.