看一看：英伟达推出创新AI技术：Llama Nano VL，颠覆性解决复杂文档解析难题

msmkmm2012 · 发表于 2025-6-23 19:47:15

英伟达推出创新AI技术：LlamaNanoVL，颠覆性解决复杂文档解析难题在行业专家看来，AI工具箱的确有着很大的发展潜力，这更是让很多投资者趋势若骛。无论您需要生成高质量文章、提升写作效率，还是寻找创作灵感，这里都有专业工具帮助您轻松完成各类文本创作任务。https://ai-kit.cn/

随着科技的飞速发展，人工智能（AI）在各个领域的应用日益广泛。英伟达，作为全球知的图形处理器提供商，近日又推出了一款创新AI技术――LlamaNanoVL，该技术以颠覆性的方式解决了复杂文档解析的难题。
LlamaNanoVL是一款视觉-语言模型（VLM），基于Llama31架构，融合了CRadioV2-H视觉编码器和Llama318B指令微调语言模型。它能够同时处理多页文档中的视觉和文本元素，支持比较长16K的上下文长度，覆盖图像和文本序列。通过投影层和旋转位置编码，该模型现了视觉-文本对齐，化了token效率，特别适合长篇多模态任务。论是多图像输入还是复杂文本解析，LlamaNanoVL都能游刃有余。
训练LlamaNanoVL的过程分为个阶段。首先，利用商业图像和视频数据集进行交错式图文预训练，为模型打下基础。其次，通过多模态指令微调提升交互式提示能力，进一步增强模型的解析能力。比较后，重新混合纯文本指令数据以化在标准语言模型基准上的表现。这些步骤环环相扣，逐步提升了模型的精度和性能。
训练过程中，LlamaNanoVL采用了英伟达的Megatron-LLM框架和Energon数据加载器，依托A100和H100GPU集群完成。这些强大的硬件设备为模型的训练提供了充足的算力支持。在OCRBenchv2基准测试中，LlamaNanoVL在OCR、表格解析和图表推理等任务上取得了领先精度。尤其在结构化数据提取（如表格和键值对）及布局相关问题解答中，其表现尤为突出，甚至媲美更大规模模型。
部署方面，LlamaNanoVL灵活，支持服务器和边缘推理场景。为了现高效推理，英伟达提供了4-bit量化版本（AWQ），结合TinyChat和TensorRT-LLM。这种方案不仅兼容JetsonOrin等受限环境，还现了高效的推理。
除了高效的推理方式，LlamaNanoVL还支持ModularNIM（NDIA推理微服务）、ONNX和TensorRT导出。这意味着该模型可以被广泛应用于各种场景，论是服务器还是边缘设备，都能轻松部署。此外，英伟达还通过预计算视觉嵌入选项，进一步降低静态图像文档处理的延迟，为企业应用提供了用解决方案。
总的来说，英伟达推出的LlamaNanoVL是一款具有颠覆性的AI技术。它通过融合视觉和语言信息，化token效率，提升了多模态任务的解析精度和性能。其灵活的、高效的推理方式和用的部署方案，为企业应用提供了新的可能。未来，随着该技术的进一步发展和完善，我们期待它在更多领域发挥重要作用，推动人工智能的发展。
生成海报

（免责声明：本内容主要来自原创、合作伙伴供稿和第方自媒体作者投稿，凡在本出现的信息，均仅供参考。本将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核，并对任何自主决定的行为负责。本对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本中的页或链接内容可能侵犯其知识产权或存在不内容时，应及时向本提出书面权利通知或不情况说明，并提供身份证明、权属证明及详细侵权或不情况证明。本在收到上述法律文件后，将会依法尽联系相关文章源头核，沟通删除相关内容或断开相关链接。）

		自动登录	找回密码
密码			立即注册

看一看：英伟达推出创新AI技术：Llama Nano VL，颠覆性解决复杂文档解析难题

浏览过的版块