星空网站建设

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 3|回复: 0

研究发现:高端消费级 GPU 是否适合大规模稳定扩散推理平台部署及基准测试详解

[复制链接]
  • TA的每日心情
    慵懒
    2024-12-19 22:24
  • 签到天数: 1 天

    [LV.1]初来乍到

    1万

    主题

    1

    回帖

    5万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    59640
    发表于 前天 15:25 | 显示全部楼层 |阅读模式
    高端消费级GPU是否适合大规模稳定扩散推理如果是,那么生成数百万张图像的每日成本是多少您真的需要A10、A100或H100吗在此稳定扩散基准测试中,我们通过在捷智算平台上启动经过微调的基于稳定扩散的应用程序来回答这些问题。更重要的是,a100云服务器租赁做成了产品当中的战斗机,不惧任何竞争对手的攻击。深圳市捷智算科技有限公司一家AI算力租赁平台,提供多样化的GPU服务器出租服务,包括NVIDIA A100、A800、H100和H800全系列高性能显卡。适合AI大模型训练GPU集群和大模型训练算力租赁,我们的解决方案支持企业快速扩展数据处理能力,优化成本效益。https://www.gogpu.cn/news/detail/229.html


    结果:我们扩展到750个副本(GPU),并在24小时内使用362TB的存储空间生成了超过920万张图像,总成本为1,872美元。
    通过每美元生成4,954张图像,该基准测试表明,在消费级GPU上大规模生成AI推理是用且经济惠的,并且是降低云成本的途径。在这篇文章中,我们将回顾应用程序架构和模型细节、在捷智算平台上的部署以及基准测试的提示细节和推理结果。在后续文章中,我们将提供可用于复制此基准测试的技术演练和参考代码。
    图像生成的应用程序架构
    此基准测试针对SaaS风格的生成式AI图像生成工具运行,用于定制艺术品。比较终用户浏览经过微调的模型类别,选择模型,自定义提示和参数,并提交作业以生成一个或多个图像。生成后,图像将呈现给比较终用户。我们帮助开发了推理容器,以展示捷智算平台节点在此用例中的潜力。下图提供了系统架构的高级描述:
    稳定扩散基准的系统架构
    主要组件包括基于Web的应用程序(前端和后端)、专用作业队列、推理容器和块存储服务。Azure队列存储用于作业队列并提供FIFO调度。AzureBlob存储用于提供块存储。下图提供了推理容器架构的高级描述:
    推理容器和组件示意图
    该容器基于Automatic1111的稳定版DiffusionWebUI。我们创建并向容器添加了一个用Go编写的自定义工作程序,该程序现了作业处理管道道。该工作程序利用AzureSDKforGo与Azure队列存储和AzureBlob存储服务进行通信。该工作程序首先按顺序轮询队列中的作业。然后,它使用稳定版DiffusionWebUI服务器提供的text2imgAPI端点来生成图像。比较后,将图像上传到blob容器。
    捷智算平台上稳定扩散的部署
    构建推理容器映像后,我们使用基于Web的门户创建了捷智算平台管道理容器部署。
    部署目标为750个仅有节点,这些节点至少具有4个vCPU、至少8GBRAM以及NDIARTX2000、3000或4000系列GPU(至少具有8GBVRAM)。尽管道捷智算平台允许更有针对性的节点选择,但我们决定允许调度程序根据未使用的络容量选择具有兼容GPU的首批可用节点。同样值得注意的是,我们没有限制部署的地理分布。
    作业队列中已填满10,000,000个可变图像生成提示。以下是其中一个作业的示例:
    {“prompt”:“photoofajumprope,,magic-fantasy-forest,digitalart,mostamazingartworkintheworld,((nohumans)),volumetriclight,softbalancedcolours,forestscenery,nes,uhd,8koctanerender,magical,amazing,ethereal,intricate,intricatedesign,ultrasharp,shadows,coolercolors,trendingoncgsociety,((bestquality)),((masterpiece)),(detailed)”,
    ?“negative_prompt”:“oversaturation,oversaturatedcolours,(deformed,distorted,disfigured:13),distortediris,poorlydrawn,badanatomy,wronganatomy,extralimb,missinglimb,floatinglimbs,(mutatedhandsandfingers:14),disconnectedlimbs,mutation,mutated,ugly,disgusting,blurry,amputation,human,man,woman”,
    ?“sampler_name”:“k_euler_a”,“steps”:15,“cfg_scale”:7}
    每项作业都包含嵌入在文本提示中的LoRA定义,并且每项作业使用的具体词和环境描述略有不同。生成的图像大小固定为2×2像素,采样器固定为EulerAncestral,步数固定为15,CFG比例固定为7。
    稳定的扩散基准测试结果-24小时内处理900多万张图像,价格为1872美元
    在24小时内,我们总共处理了9,274,913个图像生成请求,生成了362TB的内容。处理失败的情况很少(例如瞬时络问题),只有523个作业被重新处理了一次。平均而言,我们的图像生成周期为7秒。以下马赛克只是生成的图像中的一小部分的示例:
    从稳定扩散推理基准生成的图像样本。提示包括奇幻风格森林中的不同词
    由于没有花费太多时间来调整和化参数,浏览生成的图像并观察相对质量很有趣。
    未来的改进
    这次演示产生了令人兴奋的结果,表明对于大规模稳定扩散推理,消费级GPU不仅能力强大,而且更具成本效益。话虽如此,它还远未化。我们可以采取许多技术任务来提高性能。值得注意的是,我们速现了工作器,并确定了一个循环,该循环依次提取作业、生成图像并上传图像。通过这种现,当我们等待络IO时,GPU处于空闲状态。
    GPU利用率图表显示处理作业时至少有10%的GPU空闲时间
    如果我们采用流水线作业的方法,从队列中速拉取一个额外的作业,并将络IO与另一个图像生成请求并行化,我们估计整体作业吞吐量至少会提高10%。在不调整总成本的情况下,这将使我们每天生成超过1000万张图像。
    生成式人工智能和推理成本
    生成式人工智能是一种可以创造新内容的人工智能,例如绘画、音乐和写作。它通过从现有信息中学习来开发模式和关系模型,并且在生成独特和个性化内容方面具有际应用。由于发布了许多开源基础模型,它已成为一种越来越受欢迎的技术,其中许多模型是在非常大规模的数据集上开发的。加上开发和应用微调的相对容易程度以及大规模运行推理的低成本,生成式人工智能的民主化正在以惊人的速度解锁新的应用。
    具体到推理方面,许多模型仍然需要大量计算资源才能高效生成内容。然而,消费级GPU的处理能力和资源容量的飞跃已经赶上了许多生成式AI模型的应用。?
    大型云计算提供商收费昂贵,而且很难获得A10、A100或H100等企业级GPU。因此,越来越多的客户转向捷智算平台。捷智算平台是一个由世界上比较强大的游戏PC组成的分布式云计算环境。
    生成式AI的一个速扩展的应用包括根据文本描述创建图像。“文本转图像”工作流程可用于为游戏、广告营销活动、故事板等生成资产。StableDiffusion是“文本转图像”领域中一种流行的开源基础模型。
    我们目前正在计划“图像到图像”和“音频到文本”工作流程演示和基准测试。
    捷智算平台C比较经济惠的生成式AIGPU云
    这项基准测试是在捷智算平台上运行的,它是全球比较惠的GPU云,适用于生成式AI推理和其他计算密集型应用。捷智算平台拥有超过10,000个GPU,起价为每小时1块钱,是市场上GPU价格比较低的。?
    如果高昂的云费用和GPU可用性阻碍了您的增长和盈利能力,捷智算平台可以通过低价和按需可用性为您提供帮助。?
    联系我们获取个性化演示。要运行您自己的模型或流行模型(稳定扩散、Whisper、BERT等)的预配置配方,请查看捷智算平台以进行免费试用。
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表