主流多模态模型对比 GPT-4V:OpenAI的视觉增强版,支持图文理解 Gemini Pro Vision:Google原生多模态架构 Claude 3:Anthropic的多模态解决方案 LLaVA:开源视觉语言模型标杆