星空网站建设

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 4|回复: 0

新观点利用 TensorRT 释放 NDIA H100 GPU 的全部潜力,现 ML 推理

[复制链接]
  • TA的每日心情
    慵懒
    2024-12-19 22:24
  • 签到天数: 1 天

    [LV.1]初来乍到

    1万

    主题

    1

    回帖

    6万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    60009
    发表于 前天 15:32 | 显示全部楼层 |阅读模式
    NDIA的H100GPU是市场上比较强大的处理器。但在ML模型上运行推理需要的不仅仅是原始功率。为了获得比较的首个令牌时间、比较高的每秒令牌数以及LLM和StableDiffusionXL等模型的比较短总生成时间,我们转向NDIA的模型服务引擎TensorRT。通过在H100GPU上提供使用TensorRT化的模型,我们可以比A100工作负载节省大量成本,并在延迟和吞吐量方面获得出色的性能基准。如果能实践这几点,h100云主机租赁定能独树一帜,成为行业的佼佼者,并不断的前行着。深圳市捷智算科技有限公司一家AI算力租赁平台,提供多样化的GPU服务器出租服务,包括NVIDIA A100、A800、H100和H800全系列高性能显卡。适合AI大模型训练GPU集群和大模型训练算力租赁,我们的解决方案支持企业快速扩展数据处理能力,优化成本效益。https://www.gogpu.cn/news/detail/233.html


    在NDIAH100GPU上部署ML模型可为LLM、图像生成模型和其他要求严格的ML工作负载提供比较低延迟和比较高带宽推理。但要从这些GPU中获得比较大性能,需要做的不仅仅是加载模型并运行推理。
    我们使用NDIA的TensorRT和TensorRT-LLM模型服务引擎对LLM(Mistral7Binfp16)和图像模型(StableDiffusionXL)进行了基准推理。使用这些工具,我们在相同或更低的延迟下现了比A100高出两到倍的吞吐量。
    捷智算是可以在H100GPU上提供模型推理的。由于H100可以将A100的吞吐量提高一倍或倍,因此在使用TensorRT和TensorRT-LLM时,与当前价格的同等A100工作负载相比,切换到H100可以将性价比提高18%到45%。
    开箱即用,H100GPU在模型推理方面具有显著势:80GBVRAM上的内存带宽为335TBs―比A100多16倍。9895teraFLOPsfp16张量计算――比A100好3倍多。来自NDIAHopper架构的新功能和化。
    但是使用TensorRTTensorRT-LLM进行推理比A100获得的改进甚至比统计表显示的还要大:
    与A100相比,Mistral7B的吞吐量提高了一倍(每秒生成的令牌总数),延迟提高了2倍(首个令牌的时间,每秒感知的令牌数),并且批处理大小保持不变。与A100相比,Mistral7B的吞吐量(每秒生成的令牌总数)增加了倍,并且随着批次大小的增加,延迟(首个令牌的时间、每秒感知的令牌数)也保持恒定。StableDiffusionXL的结果类似,30步推理仅需一秒半。
    在本报告中,我们将回顾Mistral7B和StableDiffusionXL的基准,并讨论为何TensorRTTensorRT-LLM在H100GPU上的模型推理中提供如此出色的性能。
    一、为什么TensorRT和TensorRT-LLM可以提高H100推理能力
    H100不仅仅是具有更多内核和更内存的A100,它使用NDIA的Hopper架构。Hopper架构是NDIALovelace架构的数据中心导向兄弟,后者为RTX4090等消费级GPU和L4等较小的数据中心级GPU提供支持。
    Hopper架构提供了一系列新功能,以补充更大的核心数量、带宽和缓存。深入研究架构可以发现线程块集群、分布式共享内存、异步执行、新的张量内存加速器等数十项化。这些化旨在让H100在ML推理和其他工作负载方面获得额外的势。
    并非所有模型都会用到所有功能。这就是TensorRT的作用所在。TensorRT是一个用于模型推理化的工具包。它由NDIA构建,因此充分利用了H100GPU中的新功能。使用TensorRT,您可以构建特定于模型的引擎,以化各个模型层和CUDA指令,从而比较大限度地提高性能。这可以带来比原始统计数据本身更大的推理性能提升。
    二、更高的内存带宽带来更好的吞吐量
    LLM推理的主要衡量指标是每秒标记数(TPS),它描述了模型输出文本的速度。此推理阶段受内存限制,因此H100增加的内存带宽至关重要。
    H100有种变体。我们专门使用S外汇H100,由于其内存带宽更高,因此性能比PCIe变体好得多。同样,在可用的A100中,我们只使用同类比较佳的80GBS外汇A100,其带宽比较高――我们正在进行同类比较。
    这些H100GPU具有335TBs的内存带宽,而等效的A100仅有2039TBs的内存带宽,这意味着H100的内存带宽约为A100的164倍。
    内存带宽的增加对LLM的性能有直接影响。在对每秒令牌数进行基准测试时,我们会关注两个指标:感知TPS―单个用户在响应提示时每秒获得的令牌数量。这是一个延迟指标,50TPS是聊天的合理阈值。总生成TPS―模型在整个请求批次中每秒生成多少个令牌。这是一个吞吐量指标,您希望该指标尽可能高,以便从GPU获得比较高的性价比。
    如下表所示,在保持批处理大小不变并测试300个输入令牌和1000个输出令牌的情况下,H100的每秒感知令牌数和每秒生成令牌总数大约是A100的两倍。得益于TensorRT-LLM提供的化,测量的性能比预期的要好――我们预计增加内存带宽后性能只会提高64%。


    、通过更好的Tensor计算更地获得首个token
    LLM推理的预填充阶段是独一二的,因为它受计算限制。在预填充中,模型获取整个输入标记集并使用它来生成首个输出标记。执行此操作需要大量张量计算能力,但内存访问相对较少,因此在这种情况下,H100的9895teraFLOPSfp16张量计算能力使H100具有势。
    我们特别关注预填充阶段的完成速度,因为它直接影响到首个令牌的时间――延迟的一个重要指标。首个令牌的时间是衡量LLM开始响应流式输出的速度的指标。速的首个令牌时间意味着速的用户体验。
    将H100与A100预填充时间进行比较,我们发现H100预填充在所有批次大小中始终比A1002-3倍。这是使用300个输入令牌测量的,并且会根据输入序列长度而变化,但H100的相对加速比在大多数序列长度中应该保持相似。


    首个令牌的时间还取决于络速度等因素,但我们可以从该表中观察到,H100显著提高了预填充性能,这直接对应于更的首个令牌时间。
    四、恒定延迟带来3倍吞吐量提升
    对于某些用例来说,每秒感知令牌数和首个令牌时间的“免费”改进以及2倍更高的吞吐量可能非常有用。但是,如果您已经对模型的性能感到满意,则可以通过增加批处理大小来从同一硬件中获得更高的吞吐量(在某些情况下为3倍或更多),从而节省更多成本。
    为了了解具体情况,让我们看一下上述基准的综合表。


    假设你在A100上运行Mistral7B,目标是比较大化吞吐量,同时仍支持较高的延迟数:每个请求每秒可感知50个令牌首个token的获取时间不到1秒
    您应该在A100和H100上选择多少批次大小让我们看一个简化的相关值表:

    从表中我们可以看出:在A100上,批次大小为32可以现您的延迟目标,总吞吐量为每秒1,771个令牌。如果在切换到H100时保持批次大小相同,则可以获得两倍的吞吐量。如果在切换到H100时将批次大小增加到64,则可以获得倍的吞吐量,同时保持低于延迟目标。
    输入和输出序列长度以及特定于模型的性能怪癖等因素可能会稍微改变这些值,但如果您愿意接受较低的延迟增益,H100会为您提供更大的吞吐量提升空间。这会带来显著的性价比提升:在这种情况下,吞吐量提高了3倍,性能提升了45%。
    五、更的StableDiffusionXL推理
    这些性能提升不仅限于大型语言模型。TensorRT还支持StableDiffusionXL(SDXL)等模型,这些模型的性能提升与H100类似。
    SDXL推理受益于计算能力和内存带宽的增加。对于使用TensorRT的30步SDXL和批处理大小为1,我们看到:H100:延迟1478秒,吞吐量068幅秒A100:延迟2742秒,吞吐量036张图片秒A10G:延迟816秒,吞吐量012张图片秒
    开箱即用,您再次获得几乎两倍的延迟和吞吐量性能。与LLM一样,您可以通过增加SDXL推理的批处理大小来在一定程度上权衡延迟和吞吐量。
    六、通过将A100工作负载切换到H100,可节省18%至45%

    我们以每小时9984美元的价格在H100GPU上提供化的模型推理。我们提供具有1、2、4或8个H100GPU的例来处理比较大的模型,并且可以在TensorRTTensorRT-LLM上运行开源和自定义模型,以充分利用H100的计算能力。


    H100的模型推理性能比A100高出2到3倍,但每小时成本仅高出62%。这意味着,对于需要多个A100支持的例的工作负载,切换到H100可以节省大量成本:通过2倍吞吐量节省约18%并免费获得更低的延迟吞吐量提高3倍,延迟可媲美,节省高达45%
    要在H100GPU上部署Mistral7B、Mixtral8x7B、StableDiffusionXL或任何其他开源或自定义模型,请联系我们并告诉我们您的使用案例-我们很乐意帮助您充分利用这些令人难以置信的GPU。
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表