完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
业务方向有调整,整个caffe框架的移植先放一放,需要先做 MobileNet相关工作。
由于Xilinx有 一个DSP计算两路 int8 乘加的黑科技,能够使用8个dsp计算14路int8的乘加,so,利用率提升为1.75(参考文献为wp486-deep-learning-int8.pdf)。 所以将float型的数据量化成int8类型,会极大地提升计算效率,使用Deepin大神们的套件能够从caffe模型(浮点),得到int8的模型,再通过sdk编程,直接部署到FPGA上,这个过程本质上应该还是使用了SDSoC的相关工具。 大佬们开发了DPU这个深度学习的IP,在不远的将来要放置到Vivado中作为IP使用,放置到SDSoC中作为库函数使用,有消息说2018的q3发布,不过跳票。何时发布不得而知,不发布也得搞起来。 所以接下来的工作是学习相关Deepin的套件,以及进行FPGA的部署工作。 安装DNNDK套件需要在相应的环境下,安装cuda与cudnn库。 之前已经安装了caffe相关的东西,也不需要再安装了。 其中cuda安装了CUDA8.0+cuDNN7.0.5 LINUX服务器是16.0.4 显卡2080ti(此处有坑,稍后再提)。 DNNDK的框架如图,提供的是一个整套的caffe/tf 等上层深度学习框架的FPGA deploy解决方案。 其中需要提供训练好的 浮点的 caffe网络模型 .prototxt 文件 以及 weights .caffemodel 文件。 量化剪枝工具会将浮点的模型在 尽可能小的损失精度的情况下 转换成 int的定点模型,以deploy到 FPGA 上,FPGA内部 deephi的大佬们已经做了 DPU这样一个通用的运算单元。可以通过API调用该单元完成运算。 支持的评估板如下 这些板子有很多example可以直接运行查看效果,人脸识别,姿态识别,图像分割,还有简单的图像分类 Resnet50. 现在的一些问题是,有一部分算子DPU尚未支持,那么这些运算只能做到PS中进行运算,效率一般,FPGA成本也比较高,假如性能一般,那么相关硬件平台就没有必要使用FPGA,因为GPU性能远高于FPGA, 甚至有些CPU也能够获得不错的性能,同时不需要再进行开发(RTL,或者其他相关) |
|
相关推荐
|
|
你正在撰写讨论
如果你是对讨论或其他讨论精选点评或询问,请使用“评论”功能。
872 浏览 0 评论
1126 浏览 0 评论
847 浏览 0 评论
1475 浏览 0 评论
1861 浏览 0 评论
3092 浏览 62 评论
6802 浏览 115 评论
小黑屋| 手机版| Archiver| 电子发烧友 ( 湘ICP备2023018690号 )
GMT+8, 2025-6-13 20:58 , Processed in 0.402515 second(s), Total 30, Slave 24 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 湖南华秋数字科技有限公司
电子发烧友 (电路图) 湘公网安备 43011202000918 号 电信与信息服务业务经营许可证:合字B2-20210191