Llama3.2 Vision(90B+11B)使用说明

（一）前言

1、磁盘空间

占用33G磁盘，预留了近67G磁盘空间以供用户使用。

2、模型介绍

Llama 3.2-Vision 多模态大型语言模型 (LLM) 集合是一个包含 11B 和 90B 尺寸的指令微调图像推理生成模型的集合（文本 + 图像输入 / 文本输出）。Llama 3.2-Vision 指令微调模型针对视觉识别、图像推理、字幕生成和回答有关图像的一般问题进行了优化。在常见的行业基准测试中，这些模型的性能超过了众多现有的开源和闭源多模态模型。

支持的语言：对于纯文本任务，官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 已在比这 8 种支持语言更广泛的语言集合上进行训练。dsfsdfdsfdsfsdfs

请注意，对于图像 + 文本应用，仅支持英语。