cuBLAS 库可提供基本线性代数子程序(BLAS)的 GPU 加速实现。cuBLAS 利用针对 NVIDIA GPU 高度优化的插入式行业标准 BLAS API,加速 AI 和 HPC 应用。cuBLAS 库包含用于批量运算、跨多个 GPU 的执行以及混合精度和低精度执行的扩展程序。通过使用 cuBLAS,应用将能自动从定期性能提升及新的 GPU 体系架构中受益。cuBLAS 库包含在 NVIDIA HPC SDK 和 CUDA 工具包中。
cuBLAS 多 GPU 扩展
cuBLASMg 提供了先进的多 GPU 矩阵间乘法,您可在多台设备间以 2D 块循环方式分发每个矩阵。cuBLASMg 目前已加入 CUDA 数学库抢先体验计划。
cuBLAS 性能
cuBLAS 库针对 NVIDIAGPU 上的性能进行了高度优化,并利用 Tensor Core 对低精度和混合精度矩阵乘法进行加速。



cuBLAS 的主要特性
全面支持 152 个标准 BLAS 例程
支持半精度和整数矩阵乘法
GEMM 和 GEMM 扩展程序针对 Volta 及 Turing Tensor Core 进行了优化
针对各种深度学习模型中使用的规模调整 GEMM 性能
支持用于并发操作的 CUDA 流
您将能够使用最基本的 CUDA 工具和威廉希尔官方网站 ,加速和优化仅适用于 CPU 的 C/C++ 应用程序。您将了解 CUDA 开发的迭代风格,这将帮助您快速发布加速应用程序。
加速计算基础——CUDA Python
您将了解使用 CUDA 和 Numba 编译器在大规模并行 GPU 上加速运行 Python 应用程序的基本工具和技能。
通过 CUDA C++ 在多个 GPU 之间扩展工作负载
您将学习如何在单个节点上使用多个 GPU,构建强大高效的 CUDA C++ 应用程序。
通过并发流加速 CUDA C++ 应用程序
您将在 CUDA C++ 应用程序中,学习利用 CUDA Streams 进行复制/计算重叠。
审核编辑:刘清
-
gpu
+关注
关注
28文章
4736浏览量
128925 -
矩阵
+关注
关注
0文章
423浏览量
34541 -
HPC
+关注
关注
0文章
316浏览量
23767
原文标题:DevZone | NVIDIA cuBLAS库
文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
《CST Studio Suite 2024 GPU加速计算指南》
将NVIDIA加速计算引入Polars
NVIDIA加速计算如何推动医疗健康
AMD与NVIDIA GPU优缺点
GPU加速计算平台是什么
NVIDIA CorrDiff生成式AI模型能够精准预测台风
借助NVIDIA DOCA 2.7增强AI 云数据中心和NVIDIA Spectrum-X
NVIDIA加速微软最新的Phi-3 Mini开源语言模型
利用NVIDIA组件提升GPU推理的吞吐
搭载英伟达GPU,全球领先的向量数据库公司Zilliz发布Milvus2.4向量数据库
NVIDIA cuPQC帮助开发适用于量子计算时代的加密威廉希尔官方网站
NVIDIA将在今年第二季度发布Blackwell架构的新一代GPU加速器“B100”
如何选择NVIDIA GPU和虚拟化软件的组合方案呢?

NVIDIA cuBLAS库加速BLAS的GPU设计实现
评论