1. 멀티모달(Multimodal)이란?멀티모달은 텍스트, 이미지, 음성, 영상 등 **서로 다른 형태의 데이터(Modality)**를 함께 처리하는 기술입니다. 단순히 이미지를 텍스트로 설명하는 수준을 넘어, 여러 정보를 동시에 받아들여 통합적으로 사고하는 것이 핵심입니다.LMM (Large Multimodal Model): 텍스트 기반 LLM에 시각/청각 능력이 통합된 모델 (예: GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet).2. 핵심 원리: 공유된 공간 (Shared Embedding Space)서로 다른 데이터들이 어떻게 서로 소통할까요? 비결은 **'공통 언어'**로 변환하는 데 있습니다.인코더 (Encoders): 이미지는 Vision Encoder가, 텍스트는..