基于英特尔OpenVINO优化,爱奇艺已将深度学习应用于视频产品

OpenVINO针对CPU的深度学习优化方案,还将应用于更多领域。

随着 AI 技术逐渐应用于网络视频之中,算力优化和平衡成本逐渐成为了视频平台关注的重点。36氪近期通过采访爱奇艺技术部门相关负责人,了解到了 OpenVINO 为爱奇艺视频平台产品带来的体验提升。

事实上,2018 年 5 月,英特尔便推出了 OpenVINO 工具包,其功能为将计算机图形和深度学习推理整合到前沿的视觉应用中。

基于英特尔OpenVINO优化,爱奇艺已将深度学习应用于视频产品-Apollo For Cosy 演示站

OpenVINO(开放式视觉推理和神经网络优化)工具包使开发人员能够基于不同的深度学习框架(例如当下流行的TensorFlow, MXNet和Caffe等框架),进行AI模型优化,并将其部署到各种产品中。OpenVINO 的高效得益于英特尔此前投资的多项技术,包括CPU,FPGA(现场可编程门阵列)和Movidius视觉处理单元(VPU)等。

“AI 雷达”与“蒙版弹幕”

由于爱奇艺与英特尔是长期的合作伙伴,所以近期在各端平台上推出的“AI 雷达”和“蒙版弹幕”功能,便已采用了基于 OpenVINO 的 CPU 优化方案。

据爱奇艺智能平台高级总监刘俊晖介绍,AI 雷达最早是从 TV 端开始上线的,用户可随时在剧集中开启 AI 雷达,搜索此时画面中的人物、商品及其相关信息;蒙版弹幕则是通过机器视觉分析出剧集中主要角色的轮廓,并让弹幕绕过人物显示。

由于AI雷达是实时请求的服务,需要让TV用户快速得到反馈结果,所以需要按全量部署资源。如果服务部署在GPU平台上,协调大量的GPU资源用于满足峰值服务调用会产生很大的浪费,因为这些GPU的利用率在非峰值期间会很低,且价格偏高。相比之下,CPU 相对容易资源协调,价格也低许多。但 CPU 方案同样具有弱点,就是没有优化的服务在 CPU 上的延时性能没法满足需求。

爱奇艺基础架构高级总监吴杰珂表示,英特尔的 OpenVINO 工具包便是根据这类需求而推出的。采用 OpenVINO 进行优化后,AI雷达服务中最核心的人脸检测模型和人脸识别模型,延时性能上可以有大约6~8倍的提升。

基于英特尔 OpenVINO 并从计算机视觉的角度与 AI 结合应用于流媒体,已在爱奇艺完成数十个应用的 CPU 优化,基于CPU进行人工智能服务的优化和部署,提升CPU上人工智能服务性能最高可达到10倍以上,数千核 CPU 服务的部署,等量替换一百多个 GPU 资源,可降低深度学习云平台超过 50% 成本。

另一个基于 OpenVINO 的产品“蒙版弹幕”,则已经在部分剧目上试运行了。值得一提的是,如果片源发生变化,整集的人形分析就需要重新生产,但“及时更新”意味着大量的AI模型推理需求。

“蒙版弹幕的核心是图像语义分割,用OpenVINO优化之后,推理处理能力大约能有3~4倍的提升,这样生产能力就得到了大幅提高,更新的频率就可以更快,能更加及时地为用户提供有蒙版弹幕功能的剧目。”

截至目前,各大视频平台已开始陆续推出“蒙版弹幕”类功能,未来针对深度学习优化的工作也将愈发重要。

GPU、CPU 混用方案

据了解,对于人工智能的推理服务优化,除了常见的CPU与GPU计算资源,爱奇艺已对多种使用OpenVINO 进行异构计算加速人工智能算法的方案进行了开发评估,包括FPGA、VPU等计算资源。已完成开发的多种性能自动化评估工具、以及延时与吞吐最优部署自动化评估工具,也大幅提升了对不同人工智能算法加速与优化的开发效率。

GPU、CPU混用的方案,能够在不同情况下切换算力硬件,满足视频平台的各种需求。

以爱奇艺的 AI 布局为例,公司里面CPU的资源池要比GPU的资源池大得多,CPU池子比较容易做负载的调度,从而得到较强的抗高峰能力;另一方面,非高并发情况下,整体基于CPU的推理成本也比GPU要低很多,吴杰珂介绍道。

在OpenVINO调整好(准确率和延时)之后,平台整体获得了6~8倍的延时性能的提升,基本已接近纯GPU方案的性能了。

吴杰珂表示,OpenVINO 工具包自面世以来也一直在优化,在特定应用和场景下,GPU和CPU各有优略,另外,除了后台应用,OpenVINO还能在前端如Window设备上落地优化方案。所以,对于爱奇艺来说,两种硬件混合调用的方案能够将优势结合,且通过长期优化硬件的布局数量,能够持续提升性价比。

值得一提的是,英特尔这几年在人工智能领域的投入逐年升高,在并购Altera后不到一年,又并购了Movidius公司。未来,爱奇艺也将和英特尔开展更多合作。

“神经网络计算棒可能是这家公司给大部分人的第一印象,现在在京东上大约550元和750元就可以分别买到第一代和第二代计算棒。我们也正在对基于Movidius芯片的方案进行评估,当然,不是计算棒,而是单板集成多片Movidius芯片的推理加速板卡。”

原创文章,作者:刘士武。转载或内容合作请点击 转载说明 ,违规转载法律必究。

本文系作者 @ 原创发布在 悦语听风。未经许可,禁止转载。

喜欢()
评论 (0)
热门搜索
31 文章
6 评论
0 喜欢
Top
切换注册

登录

忘记密码 ?

切换登录

注册