layout
default

嵌入式AI简报 (2019-07-15)

关注模型压缩、低比特量化、移动端推理加速优化、部署
注：PC端微信链接打不开请用手机打开

业界新闻

性能升级，骁龙855 Plus 移动平台来袭 | 高通骁龙
摘要：Qualcomm今日宣布推出高通骁龙™855 Plus 移动平台，与骁龙855 相比，该平台支持的增强性能包括：Qualcomm® Kryo™ 485 CPU的超级内核主频高达2.96GHz；Qualcomm® Adreno™ 640 GPU实现15%的性能提升；游戏方面，骁龙™Elite Gaming 旨在为用户提供竞争优势，例如对Vulkan 1.1图形驱动的支持，其能效与 Open GL ES 相比提升20%。AI方面，第四代多核Qualcomm®人工智能引擎 AI Engine 能够带来极速响应的游戏体验。它支持每秒超过7万亿次运算（7TOPs）并可综合实现专有的可编程AI加速。搭载骁龙855 Plus 的商用终端预计于2019年下半年面市。
麒麟810实体芯片首次亮相，对标骁龙730，AI跑分比骁龙855还高 | 量子位
摘要：麒麟810，2+6大小核：两颗主频2.27GHz的Cortex-A76大核，六颗主频1.88GHz的Cortex-A55小核。Mali-G52定制六核。
在AI Benchmark官网上，麒麟810的芯片数据得分为23944，位居第一。不仅超过了骁龙855，也超过了华为首款7nm芯片麒麟980。
麒麟810的强项在于处理FP16数据格式的性能和能效表现，与骁龙855相比有6-8倍的优势。此外，在Int8的精度保留和超分性能上也挺好，在图片处理中细节更清晰，不会出现画面错误。
小米CC9e评测千元的价格不变的核心体验 | 新浪网
摘要：小米CC9e，图形性能上，其搭载的骁龙665采用Adreno 610 GPU，可以带来增强的游戏体验和更长的游戏时间，同时实现了Vulkan 1.1的支持。骁龙665采用与骁龙660相同Kryo 260 CPU，主频为2.0GHz，这其实比骁龙660的2.2GHz主频要低，只是由于工艺上的优势，才能够达到与660相同的性能表现。其优势在于相同的性能下，能够有着更低的功耗。
淘宝开源深度学习推理引擎MNN，移动AI的挑战与应对全面解读 | AI前线
摘要：在 GMTC 全球大前端技术大会上，淘宝无线开发专家陈以鎏发表了《MNN - 端侧推理引擎面临的挑战与应对》的演讲，与大家分享了 MNN（Mobile Neural Network) 开发、开源中的思考与总结。
百度 Intel 联手打造新一代 Nervana NNP 芯片 | 雷锋网
摘要：7月3日举行的百度AI开发者大会上，百度发布了鸿鹄芯片以及多个智能音箱新品，宣布与华为麒麟合作，智能小程序也进入新连接。英特尔副总裁兼人工智能产品事业部总经理 Naveen Rao 也出席现场为百度打 Call，并宣布了与百度在 AI 方面的重磅合作——结合自家的专业知识，共同打造用于训练 AI 的 Nervana 神经网络处理器（NNP，Neural Network Processor）。
英特尔公司副总裁兼人工智能产品事业部总经理Naveen Rao宣布英特尔正与百度合作开发英特尔® Nervana™神经网络训练处理器（NNP-T）。NNP-T 有 24 个计算集群，32GB 的高频宽存储器（HBM2）和本地 SRAM，因此，这款即将推出的处理器在 AI 训练方面比同类产品要强上最多 10 倍，比英特尔推出的首款 Nervana NNP 芯片 NNP-L 1000（代号 Lake Crest）的性能强 3-4 倍。（雷锋网按：2016 年，英特尔收购人工智能公司 Nervana，2017 年，英特尔推出专为机器学习设计的 Nervana NNP 系列芯片）。
这一合作包括全新定制化加速器，以实现极速训练深度学习模型的目的。英特尔软件项目 “One API”正是解决前面说到的多个芯片并存加以自动化智能管理解决方案的一部分。
One API支持直接编程和API编程，并将提供统一的语言和库，可以在包括CPU、GPU、FPGA和AI加速器等不同硬件上，提供完整的本地代码性能。
从本质上看，One API实际是对GPU、CPU、NNP神经网络等多种处理器统一和简化的一种抽样化的模式。

论文

CVPR2019: 压缩AI模型有望部署于移动终端 | 戚琦网络智能研究中心NIRC
摘要：在这篇由北京邮电大学网络智能研究中心、东信北邮EB Lab合作完成的论文中，作者考虑了网络中连续层之间的关联关系，提出了OICSR方法，将结构正则化同时运用于连续网络层中相互对应的out-channels和in-channels，从而可以在更小的精度损失下，移除更多的冗余通道。在对指标影响较小的情况下，极大地提升深度学习模型的运行效率。
Google提出全新间接卷积算法 | AI科技大本营
摘要：谷歌的Peter Vajda在ECV2019中提出了一种全新的间接卷积算法，用于改进GEMM在实现卷积操作时存在的一些缺点，进而提升计算效率。
亚毫秒级手机人脸识别！谷歌BlazeFace算法重大突破，面向移动GPU | 新智元
摘要：BlazeFace包括一个轻量级的特征提取网络，其灵感来自于MobileNetV1/V2，但又有所不同。还采取了一种修改过的SSD目标检测算法，使其对GPU更加友好。然后用改进的联合分辨率（tie resolution）策略来替代非极大抑制（Non-maximum suppression）。
BlazeFace可用于检测智能手机前置摄像头捕捉到的图像中的一个或多个人脸。返回的是一个边界框和每个人脸的6个关键点。
训练速度提升超3倍！斯坦福推出全新深度学习并行计算框架FlexFlow | InfoQ
摘要：现有的深度学习框架通常使用模型并行或数据并行来解决深度神经网络（DNN）的并行计算问题，但这两种策略往往会导致模型无法达到最优结果。
今年 ACM 的 SysML 大会上，斯坦福大学 Matei 团队在论文《Beyond Data and Model Parallelism for Deep Neural Networks》中提出了一种新的 DNN 并行化策略搜索空间——SOAP。SOAP 从样本（Sample）、运算符（Operator）、属性（Attribute）以及参数（Parameter）四个维度度寻找更好的 DNN 并行化策略。
为了加速这个搜索过程，该论文同时提出了一个新的深度学习引擎——FlexFlow。与目前最先进的方法相比，FlexFlow 能够将训练吞吐量提高 3.3 倍并且可以达到更高的精度。 作者还比较了 FlexFlow 和 TensorFlow 在 Inception-V3 上进行端到端训练时的性能，FlexFlow 比 TensorFlow 减少了 38% 的训练时间。我们对该方法做了梳理与总结。

开源项目

taylorguo/MTCNN_Landmark106: ncnn优化MTCNN, 模型来源于https://github.com/MirrorYuChen/ncnn_106landmarks
PyTorch-OpCounter：两行代码统计模型参数量与FLOPs | 机器之心
摘要：你的模型到底有多少参数，每秒的浮点运算到底有多少，这些你都知道吗？近日，GitHub 开源了一个小工具，它可以统计 PyTorch 模型的参数量与每秒浮点运算数（FLOPs）。有了这两种信息，模型大小控制也就更合理了。
其实模型的参数量好算，但浮点运算数并不好确定，我们一般也就根据参数量直接估计计算量了。但是像卷积之类的运算，它的参数量比较小，但是运算量非常大，它是一种计算密集型的操作。反观全连接结构，它的参数量非常多，但运算量并没有显得那么大。此外，机器学习还有很多结构没有参数但存在计算，例如最大池化和 Dropout 等。因此，PyTorch-OpCounter 这种能直接统计 FLOPs 的工具还是非常有吸引力的。
PyTorch-OpCounter GitHub 地址：https://github.com/Lyken17/pytorch-OpCounter

博文

通用矩阵乘（GEMM）优化与卷积计算 | 黎明灰烬博客
摘要：本文简要介绍通用矩阵乘（GEMM，General Matrix Multiplication）优化的基本概念和方法、神经网络量化中矩阵乘的优化方法。旨在帮助大家在概念中建立一些直觉，无甚高论。
NCNN winograd详解（一） | 知乎
摘要：本文重点讲解一下NCNN里面winograd的计算流程。
NCNN Conv量化详解（一） | 知乎
摘要：本文作者详细看了看NCNN关于Conv量化的实现，特整理在此，内容包括：NCNN的conv量化计算流程、NCNN量化与反量化方法、NCNN的requantize。
NCNN量化详解（二） | 知乎
摘要：上次写了一个量化详解，讲了一下NCNN的量化前传过程。本以为是全部内容了，经评论区提醒NCNN最近刚刚更新了量化表的计算，因此写一篇文章把NCNN的量化表计算的算法与实现写下来。
PaddlePaddle显存分配与优化最佳实践 | 飞桨PaddlePaddle
摘要：先说飞桨显存分配策略，由于原生的CUDA系统调用 cudaMalloc 和 cudaFree 均是同步操作，非常耗时。为了加速显存分配，飞桨采用了显存预分配的策略，除了显存预分配，飞桨还提供了多种通用显存优化方法，使得同样网络模型及配置下的显存占用尽可能小，从而可以支持更大batch size的训练，来提升训练效率，也将会介绍最重要的两种方法，分别是GC（Garbage Collection）策略和Inplace策略。
CPU是如何访问内存的 | Peter盼人人都是极客
摘要：内存管理可以说是一个比较难学的模块，之所以比较难学。一是内存管理涉及到硬件的实现原理和软件的复杂算法，二是网上关于内存管理的解释有太多错误的解释。希望可以做个内存管理的系列，从硬件实现到底层内存分配算法，再从内核分配算法到应用程序内存划分，一直到内存和硬盘如何交互等，彻底理解内存管理的整个脉络框架。本节主要讲解硬件原理和分页管理。

往期回顾

2019-06-29
2019-06-17
2019-05-30
2019-05-15
2019-04-27
2019-04-13
2019-03-31

Wechat ID: NeuroMem
Editor: https://github.com/ysh329
Project: https://github.com/ysh329/awesome-embedded-ai

本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2019-07-15.md

2019-07-15.md

嵌入式AI简报 (2019-07-15)

业界新闻

论文

开源项目

博文

往期回顾

Files

2019-07-15.md

Latest commit

History

2019-07-15.md

File metadata and controls

嵌入式AI简报 (2019-07-15)

业界新闻

论文

开源项目

博文

往期回顾