热点:

    英特尔发布Project Battlematrix(战斗阵列)推理工作站软件更新

      [  品牌资讯   ]  

    今年5月,英特尔发布了代号为Project Battlematrix(战斗阵列)的推理工作站。推理工作站具有广阔的发展前景,主要表现在:一是安全部署,数据可在本地进行处理;二是易于设置,将所有软件置于容器中,提供一站式解决方案;三是易扩展,可灵活配置不同数量的显卡;四是在成本效益上具有显著优势。Project Battlematrix推理工作站最多可支持八块英特尔锐炫Pro B60 24GB GPU,提供高达192GB的VRAM,运行高达1500亿参数的中等规模且精度高的AI模型。

    英特尔发布Project Battlematrix(战斗阵列)推理工作站软件更新

    英特尔采用容器化方案来帮助客户解决软件部署的复杂性问题。在容器内部,对大语言模型进行了大量的优化,包括Linux软件栈的支持、验证以及分阶段的软件发布。基于全新的推理优化软件栈,Project Battlematrix还能够简化英特尔锐炫Pro B系列GPU的部署,加速英特尔GPU和AI战略的落实。

    全新的软件栈在设计时充分考虑了易用性和行业标准,是专为Linux环境构建的容器化解决方案。经过优化,该方案能够借助多GPU扩展和PCIe P2P数据传输,带来卓越的推理性能。与此同时,该方案还具备企业级的可靠性和可管理性,如ECC、SRIOV、遥测和远程固件更新等。

    LLM Scaler容器1.0版本对于前期客户支持至关重要,我们进行了以下更新:

    vLLM

    针对长输入长度(>4K)的TPOP性能优化:在32B KPI模型上,40K序列长度的性能提升高达1.8倍;在70B KPI模型上,40K序列长度的性能提升高达4.2倍

    与上一版本相比,8B-32B KPI模型的输出吞吐量性能优化约10%

    逐层在线量化,减少所需的GPU内存

    支持vLLM中的PP(流水线并行)(实验性)

    支持torch.compile(实验性)

    推测解码(实验性)

    支持嵌入和重排序模型

    增强的多模态模型支持

    最大长度自动检测

    数据并行支持

     OneCCL基准测试工具支持

     XPU Manager:

    GPU功耗

    GPU固件更新

    GPU诊断

    GPU内存带宽

    此版本将按照5月初发布时公开的时间表顺利交付,并计划在第三季度末发布功能更全面的强化版LLM Scaler,同时积极争取在第四季度发布完整版本。

    nb.zol.com.cn true https://nb.zol.com.cn/1030/10304967.html report 1585 今年5月,英特尔发布了代号为Project Battlematrix(战斗阵列)的推理工作站。推理工作站具有广阔的发展前景,主要表现在:一是安全部署,数据可在本地进行处理;二是易于设置,将所有软件置于容器中,提供一站式解决方案;三是易扩展,可灵活配置不同数量的显卡;四是在...
    提示:支持键盘“← →”键翻页阅读全文
    本文导航
    • 第1页:英特尔发布推理工作站更新
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    推荐经销商
    投诉欺诈商家: 010-83417888-9185
    • 北京
    • 上海
    • 笔记本电脑
    • 新品上市
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错