news 2026/4/19 12:49:13

cuda :对比gpu与cpu运算矩阵

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
cuda :对比gpu与cpu运算矩阵

1.cpu的运算

对于cpu的运算,我们需要遍历3次,如果A*B=C,A为M*K维,B维K*N维,C为M*N为,则我们首先要遍历P的M维和N维,在遍历K维进行计算:

2.gpu运算

对gpu运算,由于是并行运算,C矩阵的每个数值同时计算,我们的思路是每个线程(thread)处理一个矩阵上的数值,所以线程的坐标可以代表矩阵C的坐标,例如对于矩阵C8*8的矩阵:

我们可以让blockdim为4*4,也就是一个block中有16个线程,则2*2的grid就能算完所有C矩阵上的值,具体我们的核函数如下:

下面我们把cpu的数据传入gpu中进行并行运算:

进行试验:

实验参数:

实验我们进行了5组:有cpu,gpu预热,blocksize=16,blocksize=1,blocksize=32。

实验结果:

显然即便是预热的gpu运算也比cpu快,后面几组可以说明一些问题,gpu_blocksize=1运算的速度最慢,因为同一个block(线程块)中的所有thread(线程)共享一块该block专属的 shared memory;而同一个grid(线程格)中的不同block之间,各自的 shared memory 是相互独立、完全隔离的,所以blocksize=1代表着每个线程都不是共享的,算法只能依赖全局内存,访问速度很慢,而为什么blocksize=32变得就很快了呢?且硬件调度无冗余,GPU 以 32 个线程为 1 个 warp 调度,q所以blocksize=32最快。

优化:数据其实一直都是在gobalmemory中取,其实很慢,我们可以创建sharememory来加快速度。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 11:26:41

TikTok私域获客全链路:从内容引流到私域成交与复购

TTSOP跨境互联 一站式提供TikTok账号 静态住宅IP,专为带货直播打造爆量通道。引言:私域不是“加好友”,而是可衡量的转化系统很多团队做 TikTok 私域时,第一反应是“先把人加进来”。但真正能持续增长的私域,从来不是…

作者头像 李华
网站建设 2026/4/17 21:24:57

大模型落地全景指南:从技术实现到企业价值创造

大模型技术正经历从实验室走向产业界的关键转折期,据Gartner预测,到2025年70%的企业将部署至少一种生成式AI应用。然而,模型性能与业务价值之间存在显著鸿沟——基础大模型虽具备强大的通用能力,但在垂直领域准确率不足、响应速度…

作者头像 李华
网站建设 2026/4/19 0:39:24

AI助力小程序抓包:自动解析与逆向分析

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个基于AI的小程序抓包分析工具,能够自动拦截和解析微信/支付宝小程序的网络请求。功能包括:1.实时抓取HTTPS请求和响应数据 2.自动识别常见加密算法&…

作者头像 李华
网站建设 2026/4/18 2:48:49

AI如何帮你快速查找UNICODE字符?

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个UNICODE字符查询工具,支持通过描述或关键词搜索UNICODE字符,例如输入笑脸返回😊。工具应包含分类浏览、搜索历史和收藏功能&#xff0c…

作者头像 李华
网站建设 2026/4/19 6:34:08

48小时从想法到原型:PFC电路快速验证方案

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个PFC快速原型生成系统,功能包括:1) 根据自然语言需求(如需要85-265V输入,400V/1kW输出的交错式PFC)自动生成&…

作者头像 李华
网站建设 2026/4/17 14:38:52

Python新手必看:distutils缺失问题详解

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 编写一个面向初学者的交互式教程,解释distutils模块的作用。包含:1) 简单动画展示模块功能 2) 分步解决指南 3) 常见误区提示 4) 测试练习。使用简单语言&a…

作者头像 李华