
12月19日至20日,由腾讯主办的年度技术盛会2020Techo Park开发者大会于北京顺利召开。本次大会邀请了200多位海内外专家和和数千位参会者就人工智能、多媒体等前沿技术话题展开交流。在视频通信云分论坛上,腾讯多媒体实验室总监李松南进行了《智媒-多模态与内容生产》的主题 。
腾讯多媒体实验室总监 李松南
智慧媒体是指用人工智能技术重构新闻信息生产与传播全流程的媒体,由智能媒体、智慧媒体和智库媒体三部分构成。近年来,以主流媒体机构为代表的各媒体、企业等积极寻求媒体智慧化的演进策略,围绕媒体信息采集、媒体内容生产等方面,对智慧媒体的发展路径做出了一系列探索。日渐成熟的5G、人工智能、云计算等新一代呈现技术,正逐渐成为支撑智慧媒体发展的核心技术群。
作为腾讯旗下顶尖科技实验室,也是全球多媒体技术的领先者,智慧媒体是腾讯多媒体实验室的重点研究领域之一。李松南表示,近期多媒体实验室推出了AI媒体内容生产平台——智慧媒体,可以通过搭建基于跨模态(图像、音频、文本、语音)算法的多媒体内容分析和理解框架,实现媒体标签、分类、检测、摘要、内容描述等功能。
论坛上,李松南重点介绍了智慧媒体的内容生产。他指出,媒体内容包含视频、图片、声音及文字等多种形态,综合使用这些媒体形态的技术即为多模态技术。智慧媒体内容生产,就是通过人工智能的方式,自动化、批量化的生产这些不同模态的内容。
李松南用“无中生有”、“浴火重生”和“斗转星移”三个词来形容智慧媒体的内容生产方式。所谓“无中生有”是指从0到1,从无到有的创作过程,比如给AI模型一些随机的噪声信号,AI模型可以生成一首诗或一段钢琴曲。浴火重生”即同模态间的转化,比如输入一段音乐,输出也是一段音乐,只是弹奏这段音乐的乐器发声了变化,比如从钢琴变成了琵琶。 “斗转星移”是指不同模态之间的匹配或转化,比如视频与音乐之间的互相匹配,图片与文字之间的相互转化等。
截至目前,腾讯智媒的媒体内容生产能力已覆盖12种技术能力,部分能力已在腾讯云上的产品进行应用。李松南表示,未来,腾讯多媒体实验室会持续深耕多媒体技术,服务好腾讯内部产品的同时,通过腾讯云将技术进行输出,为社会创造更多价值。
以下为李松南演讲实录:
大家好,我是腾讯多媒体实验室的李松南,很高兴能参加腾讯Techo大会,为大家汇报多媒体实验室新近推出的AI媒体内容生产平台-智媒。汇报的副标题是多模态与内容生产。首先我来介绍一下多模态与内容生产的关系。
大家都知道,媒体内容包含多种形态,比如视频、图片、声音、文字等等。
做技术的同学把综合使用这些媒体形态的技术,叫做多模态技术。AI媒体内容生产,就是通过人工智能的方式,自动化、批量化的生产这些不同模态的内容。
这里,为了方便记忆,我们把AI媒体内容生产方式,归纳为三种,并且给每种方式分别起了一个符号化的名字,分别是“无中生有”、“浴火重生”和“斗转星移”。
下面我来分别介绍一下这三种方式。
首先是“无中生有”,顾名思义,是一个从0到1,从无到有的创作过程:给AI模型一些随机的噪声信号,AI模型可以生成一首诗,或者一段钢琴曲,或者一副高清的人脸图片,或者一段视频。
二种方式,我们把它叫做“浴火重生”,是指同模态间的转化,比如乐器转换,输入是一段音乐,输出也是一段音乐,只是弹奏这段音乐的乐器发声了变化,比如从钢琴变成了琵琶。
后一种方式,我们把它叫做“斗转星移”,是指不同模态之间的匹配或转化,比如,视频与音乐之间的互相匹配,或者图像与文字之间的转化。
一种方式,实验室做了一些初步的尝试,正在寻找合适的落地场景,这里就不介绍了。接下来我会针对 二和 三种内容生产方式给出一些更具体的例子。
二种内容生产形式,我们把它叫做“浴火重生”,指的是相同模态内容之间的转化。因为多媒体实验室的主要工作在视频上,所以下面我以视频作为例子进行说明。算法的输入是视频,输出也是视频。
版权声明:本文为原创文章,版权归 头条123 所有,欢迎 本文,转载请保留出处!