转自
IBM中国
今年十一假期您是怎么度过的?
旅游?购物?补眠?
您说出以上任何一种度假方式都可以理解,但是IBM员工在年的十一假期过的就比较神奇了。
因为IBM全体员工都在10月1日晚8点29分,齐刷刷的或用电视、或用电脑、或拿手机等待观看湖南卫视的一档科技类娱乐节目——《我是未来》。
原因很简单:IBM大中华区首席技术官、IBM中国研究院院长沈晓卫博士带领着团队和IBM的“雷人”黑科技们一起登上了芒果台的科技娱乐节目……
无论你是喜爱综艺,还是喜欢科技,都有《我是未来》这一档综艺节目完美满足你的需求。整个节目全程无尿点,那些“雷人”黑科技炫酷又好玩,让IBMer自豪之心油然而生!
(敲黑板!!)节目一开场就收获了观众尖叫的,是IBM为节目定制的“业界首支由人工智能剪辑的“电视节目宣传片”!IBM人工智能技术分析了《我是未来》节目万秒视频,仅仅用了一个小时就完成了普通剪辑师要半个月才能做完的工作。
网上经常可以看到《雪姨开门神曲》、《影视剧中50位古装美女混剪合集》、《阴阳师手游同人衍生》等火爆的剪辑视频。看的着实过瘾,殊不知剪辑这些是需要大量的时间和精力的。就《阴阳师手游同人衍生》来说,剪辑的人首先需要熟悉《阴阳师》这款游戏中的式神们,第二步就是熟悉各类古装剧的那些角色们,从上百个影视作品中截取几十个视频短片再进行合成,经过几周的努力只能得到短短4分03秒的震撼视频。(震撼是真的,没有看过的同学可以自行到哔哩哔哩恶补一下。)
这些视频在小编看来只有大神才能做出来……在《我是未来》中,体验官鲍春来也提到了普通人剪辑视频是非常耗时耗力的。
是不是在想,如果有AI的帮助,你也能剪出这样的视频就好了?公司年会,作品展示,爱人生日,情侣纪念日……若有视频调动气氛,至少成功一小半。
有IBM开发的人工智能剪辑师为最佳队友,相信在不久的将来,大神级别的视频,你也可以完成。炫酷的画面,附上震撼的BGM,下一个剪辑大神就是你了!
好了,娱乐的话题到此结束。
提一个严肃的问题:IBMAI是如何做到的?
小编特意带着一些有关人工智能剪辑师的问题,请教了IBM研究院的专家。
(温馨提示:以下为严肃的科普技术内容……)
Q:博士,我看咱们这期《我是未来》节目,对IBM人工智能剪辑师做的那支视频特别感兴趣,真的是一大亮点!就是这支:
这是把前几期《我是未来》节目给人工智能,它自己看完节目然后输出的视频吗?
A:(笑)不是的。人工智能剪辑师其实是机器与人合作的结晶。
Q:那是怎么做的呢?
A:我来详细解答一下您的问题。其实IBM人工智能剪辑师其实叫PowerAIVision,是由我们中国研究院的AI系统研究组创新开发的视频深度学习平台。IBM中国研究院的AI系统团队多年深入研究用于深度学习的全栈系统技术,以及视频分析技术。这次,该团队率先使用了在人工智能领域技术领先的多模态深度学习方法,包括视频、声音和语音,模拟人类的认知来完成对机器的训练。
当时,《我是未来》剧组找到我们,希望我们可以把之前几期节目,剪成最精华的60秒视频。据我所知,这是人工智能计算机第一次学习如何剪辑综艺节目,我们对于最终输出的视频成品也是非常期待的。
详细来说,剪辑这个视频大致来讲有三个步骤:
第一步,对机器进行训练,让机器学会理解和评价科技综艺类节目的各种重要场景。通过与节目导演的沟通,我们知道科技综艺节目展现最多最重要的是“炫酷”、“令人惊讶”、“振奋人心”等场景。基于此,我们开始训练复杂模型,教会计算机如何从大量的录制视频中识别并评价这些重要场景。
以“炫酷”为例,IBM的研究员从湖南卫视提供的往期节目素材中挑选出几百张“炫酷”的图片,并送到系统中让它学习什么是炫酷。这样机器就能从其他的节目里抓取到炫酷的场景。
Q:这一步机器需要学习多久呢?而且,平时我听说训练深度学习网络,是需要上万张图片作为供给基础的,几百张图片会不会少了点?
A:PowerAIVision提供了强大的迁移学习方法,可以在数据量较小的情况下,用很短的时间训练出相对完善的分类模型。所以,我们大概五分钟就可以完成第一步的训练任务,并且能够达到很高的准确率。
还有一点就是,我了解到目前有许多企业在苦恼需要花大量的人力进行数据的标注工作。我们在PowerAIVision中开发了Semi-AutoLabeling(半自动化数据标注)功能,这是一种DeepLearningforDeepLearning的技术。在用户对数据进行标注的过程中,我们的系统会利用深度学习技术学习并理解用户想标注的是什么,进而帮助用户对剩余没有标注的大量数据全部进行自动标注。最后,用户需要做的仅仅是检查自动标注的结果并进行微调即可。通过这个功能,我们可以帮助企业减少10x~50x的人力。
Q:听起来好强大啊……还是回到咱们人工智能剪辑师视频剪辑上来哈。刚才咱们讲完了第一步,那第二步是什么呢?
A:通过第一步,我们相当于训练了一个针对科技综艺节目的“专职”剪辑师。那第二步就是让这位AI剪辑师上岗工作,去理解《我是未来》所有之前录制的节目视频。针对这几期节目,共计万秒的拍摄视频,系统会对每一帧视频数据进行多通道分析,包括音乐、文字、场景等。相当于把每一帧的非结构化视频数据提取为结构化数据,并用数据库进行管理。同时,系统还会针对主题关键场景(“炫酷”、“令人惊讶”、“振奋人心”等)匹配程度生成综合评价(scoring)。
同时,根据不同的主题关键场景,系统会采取不同的评价方法。例如,“炫酷”主题会采取视觉场景和声音通道两个方面进行学习和评价。而“激动人心”则会采取视觉中的动作类别、人物表情、声音通道和语音语义等多个方面进行深度学习和评价。最终,我们通过这一步,让系统自动生成与主题关键字相关的许多视频片断,并对这些视频片断进行打分。
第三步,筛选、拼接、成片。完成前两步后,系统会按照分数选出最贴切主题关键场景的视频片段。根据导演浏览这些视频片段后提出的建议,我们构建了不同的拼接规则,包括视频片断之间的过场方法,输入到PowerAIVision。系统就会根据规则自动挑选最合适的视频片断,自动生成一分钟剪辑视频。仅仅输出一支视频并不保险,我们会让系统根据多种成片方法,输出不同的一分钟视频,并附上评分,方便导演和编剧浏览。
最终,在审美和编剧更专业的决策下,挑选并微调了系统输出的其中一支视频,就是大家之前看到的那支啦!
我这还有支IBM剪片的番外,可以送给大家:
Q:听起来就是我们把认为符合主题思想的范例场景“喂”给系统,它学完以后从其他视频里挑选出所有最高分的片段,根据一定的规则进行自动排列组合,然后让编剧去筛选?这样的话好像不会剪辑的“小白”也可以做呀?
A:你说得没错。因为我们是基于PowerAIVision来完成AI剪辑师的能力,而PowerAIVision本身已经内嵌了我们多年积累的深度学习和计算机视觉处理的大量知识。我们希望用户不需要了解深度学习知识,就可以利用我们的系统完成他想要训练的任务和视频剪辑工作。
Q:真的好酷!那咱们的人工智能剪辑师从万秒的拍摄视频中剪辑出这60秒视频一共花费多长时间?真的像节目里说的,仅用一小时吗?
A:是的,正如节目中所说的,如果是人类的剪辑团队,至少需要半个月的时间,因为仅仅把这些视频看完并筛选出符合要求的片段就需要好多天。而我们的系统,确实仅用一个小时的时间就完成了。
耗时少的关键是系统处理时间短。究其根本是因为我们有强大的加速器及并行化技术,目前已经实现了在容器云中的GPU加速及GPU硬件共享。同时,我们开发的针对深度学习Inference进行优化的PowerAIInferenceEngine,也大大缩短了系统处理的时间,提高了效率。
Q:博士,我还有个问题。世界上除了IBM有这么顶尖的技术,还有其他企业有这么突出的能力吗?未来这些技术还将应用到哪里?
A:据我所知,目前能做到用人工智能来完成复杂场景的视频剪辑,IBM是最领先的。在年,IBM美国研究院完成了第一个针对恐怖电影的AI视频剪辑。年9月,IBM美国研究院针对美国网球公开赛,完成了一个赛事“重要时刻”的AI剪辑。这次,IBM中国研究院更进一步,完成了第一个针对科技综艺节目的AI视频剪辑,更高难度的完成人物、对话、声音和场景等综合学习。
我们开发PowerAIVision这套平台的目标是让机器像人一样深入理解视频和图像信号。未来,这项技术除了可以被广泛应用到媒体行业,也可以应用到各种各样使用摄像的行业场景,例如智慧城市、工业的安全生产、零售业的客户分析等等。
Q:可以想象,这样的行业场景的确会有很多。不过,视频数据量可是非常大的,如果发展到应用层面的话,把每一秒的视频数据都实时传到公有云上,似乎不太可行吧?
A:这是一个很好的问题,我们也意识到了这一点。所以在两年前我们就开始了AIonEdge的研究,力求我们在数据中心部署的AI分析能力,能够简便地部署到用于边缘计算的嵌入式系统。我们创新的PowerAIInferenceEngine是可以帮助企业把服务器上运行的AI深度学习自动化迁移到嵌入式系统中。这对于许多应用,例如汽车的辅助驾驶或无人驾驶、无人机实时拍摄分析、机器人等都是很重要的。目前,我们也正在为国内某汽车企业构建用于车载辅助驾驶的实时视频分析系统,用的就是这个PowerAIVision和PowerAIInferenceEngine的技术。
看来,正如IBM一直所倡导的,人工智能是人类的最佳助手,确实不假。以前科幻电影里看到的场景,居然也有了被实现的可能。不得不说,科技正在并且将会极大程度的改变我们每一个人的生活。
预览时标签不可点收录于话题#个上一篇下一篇