本文最后更新于 2023年10月26日。
09:00 -12:00
主论坛
智能化趋势正加快脚步走来。过去一年,AI智能技术为实时互动带来诸多赋能与变革,助力实时互动体验进入全新的清时代。本届大会主论坛,来自AI与实时互动领域的多位资深大咖将从不同维度解读智能化背景下,2023年实时互动行事件、产业发展与技术趋势前瞻。
9:00-9:40 智能·高清 引领实时互动体验新时代 声网创始人兼CEO 赵斌/声网合伙人兼客户成功副总裁 孙雨润
9:40-10:10 AI如何赋能RTE未来How AI Empowers Tomorrow of RTE Founders Space创始人兼CEO 史蒂夫‧霍夫曼 (Steve Hoffman)
10:10-10:50 AI时代实时互动何去何从 声网首席科学家、CTO 钟声
10:50-11:10 科技赋能:共筑数字包容未来Harnessing Technology for Digital Inclusion: Building a World Where No One is Left Behind 联合国人口基金(UNFPA)驻华代理代表 欧雯姗
11:10-12:00 圆桌:AI 如何赋能实时互动体验改善及场景升级? 主持人:声网首席运营官 刘斌/嘉宾:喜马拉雅首席科学家 卢恒/Soul App 技术副总裁 张高政/小红书音视频架构负责人 陈靖/商汤科技商务总监 数字文娱事业部副总裁 李星冶
14:00 -16:30
(行业专场)泛娱乐出海——AI+高清,掀起社交娱乐新浪潮?
随着移动通信、大数据、云计算、人工智能等互联网技术的发展与通信媒介的迭代更新,泛娱乐社交产品呈现出了更加多元的发展方向。年初AIGC引爆行业,GPT的问世为泛娱乐注入新的活力;另一方面,随着硬件设备的持续迭代和网络基础设施的发展,互联网用户对于FHD及4K高清画质的需求也随之增长,AIGC、高清、出海、泛娱乐,交汇出全新的时代篇章。
14:00-14:30 2023年最新最牛的泛娱乐实时互动“大杀器” 声网泛娱乐产品负责人 李斯特
14:30-15:00 原创AI大模型,引领泛娱乐出海 商汤科技商务总监 数字文娱事业部副总裁 李星冶
15:00-15:30 PWNK 从看到”玩“,点燃直播弹幕互动小宇宙 Starscape主策划 陈飞
15:30-16:00 AI与直播的创新融合-困境破局的曙光 LiveMe 产品总监 刘晶晶
16:00-16:40 AI+高清,社交新玩法来袭? 主持人:白鲸出海泛娱乐主笔 辛童 / 嘉宾:声网泛娱乐产品负责人 李斯特 Starscape主策划 陈飞/Google大中华区新客移动业务负责人 钟鼎文
14:00 -16:55
(开发者专场)视频技术
大数据时代视频有了更多的表现形式,极大丰富了用户体验,创造了全新领域。本次视频技术专场将带来超高清视频、沉浸式视频、短视频等领域的最近技术进展,讨论视频技术赋能广电、安防、教育、影视等产业的现状以及核心应用发展趋势。我们还将探讨新一代视频编码技术的落地探索、面向视频传输的信源信道联合编码架构研究和AI 技术与沉浸式视频编解码的深度融合,展望AIGC & XR 技术推动下的视频新趋势。
14:00-14:35 数据驱动下的压缩视频质量增强 徐迈 北京航空航天大学教授
近年来,随着智能终端的发展以及在线视频等新型多媒体业务的普及,网络中所传输的图像视频数据量呈爆炸式增长的趋势,网络带宽供求矛盾日益尖锐,视频编码是网络带宽供求矛盾的关键技术。然而,高压缩比的视频压缩导致视频质量差,极大降低了视频用户体验。本次报告将介绍徐迈课题组在视频质量增强方面的研究工作,主要包括:(1)基于多帧联合优化的压缩视频质量增强技术;(2)面向盲质量增强的动态高效深度网络模型;(3)感知失焦特性的压缩图像质量增强。
演讲提纲:
1.研究背景
2.多帧联合优化的视频质量增强
3.盲质量增强的高效动态深度网络模型
4.感知失焦特性的压缩图像质量增强
14:35-15:10 信源信道联合编码——从图像到任务 范晓鹏 哈尔滨工业大学智能接口与人机交互研究中心主任
图像视频已占互联网流量的90%,且仍在不断增长。随着视频编码技术进步以及标准迭代,视频压缩效率不断提升。然而经过压缩的视频对于比特错误比较敏感,如何提升无线传输条件下视频抗噪能力,是目前仍然需要解决的问题。本报告将首先回顾传统信源信道联合编码、数模混合视频通信等技术,然后介绍新兴的为视频编码带来较大效率提升的AI技术,包括基于深度学习的视频编码、基于深度学习的多任务编码等,并探讨这些技术应用于信源信道联合编码的新思路和新途径。
15:10-15:45 AV1的优化与落地 戴伟 声网视频编解码负责人
AV1自从定稿以来,就因其高效的压缩效率和友好的专利设计收到了广泛的关注,经过5年的发展,AV1的生态圈不断扩大,目前AV1的编解码已经在各个主流的浏览器中得到了支持,并且各种AV1硬件的编解码产品也都在陆陆续续的发布;而AV1的软编的速度,也从最开始的x264的几百倍优化到几十倍甚至几倍,我们已经看到了AV1能够在各个产品线中落地的可行性。在这次的分享中,我们讲着重介绍一下AV1在RTE领域落地时候的一些经验和成果。
演讲提纲:
- AV1的现状和前景
- AV1的硬件编解码通路落地
- AV1的软件编码落地
- AV1/AV2的发展展望
15:45-16:20 下一代视频图像编解码技术 王晶 华为媒体编解码技术实验室主任
传统编解码算法经过三十年的发展,压缩效果的提升逐渐变得困难。近年来,随着AI的发展,基于AI的视频图像编码技术逐渐得到业界关注。本次演讲将介绍目前业界第一个AI图像编码国际标准JPEG AI,包括模型结构、亮点技术、压缩效果、应用场景等;还将介绍业界领先的AI视频压缩算法AlphaVC,它将与业界算法融合成为AVS探索平台。最后,将对下一代编解码算法进行展望。
演讲提纲:
- JPEG AI
1.1 High Profile 与Base profile的结构与性能
1.2 轻量化技术点
1.3 芯片功耗与算力分析
1.4 典型应用场景 - AlphaVC
2.1 模型框架
2.2 运动估计模块
2.3 熵估计模块
2.4 残差编码重建模块
2.5 AVS探索平台介绍 - 下一代视频编码展望
16:20-16:55 微信基于内容感知自适应的实时视频通话技术 高欣玮 腾讯微信多媒体团队高级研究员
视频通话的服务方案是针对通信网络和通话设备制定策略,往往缺少对于采集视频本身的内容场景的兼顾,微信多媒体团队基于微信视频通话产品的特点,自主创新研发了微信基于内容感知自适应的实时视频通话技术,突破现有视频编解码标准在不同内容场景下的固定分辨率帧率码率等参数的限制,并结合业务场景与团队多年积累的视频编解码技术,设计了实时视频通话基于内容感知的引擎和混合分辨率视频编解码内核。在微信视频通话中落地应用,提升微信用户的视频体验。
演讲提纲:
- 介绍微信实时通话业务
- 支撑微信实时通话的WAVE引擎
- 微信基于内容感知自适应的实时视频通话技术
- 实时通话业务一些心得体会以及技术展望
14:00 -17:50
(开发者专场)音频技术
本专场将聚焦音频与语音前沿算法的发展,探讨相关技术在实时互动众多场景的落地实践,包括音频 AI 算法与传统算法的融合,前沿音频技术在会议、车载、游戏、硬件终端、AIGC方面的最新应用。从多种场景视角出发,分享音频技术的落地经验,以及为用户带来的体验提升。
14:00-14:35 极端环境中的语音信号获取与传输 陈景东 西北工业大学教授
声信号获取与处理技术不仅是语音通信和人机语音交互系统的基石,也可以用于灾害(如地震、矿难、火灾等)等极端环境中协助完成很多挑战性的任务。但和日常的语音通信和人机交互环境相比,极端场景下的声信号获取与传输面临很多不同的挑战,不仅涉及到弱信号(信噪比远远小于0分贝)的感知、还涉及到平台的设计与平台噪声控制等诸多问题。在这个报告中,我将简要介绍麦克风阵列的设计与处理方法,然后讨论如何利用麦克风阵列来实现灾难场景下微弱声信号的获取、参数估计以及信号和参数的传输问题。
14:35-15:10 汽车音频新风口下的机遇和挑战 相非 蔚来汽车资深专家&技术总监
新能源时代的到来为百年汽车行业带来了前所未有的变革,造车理念的转变引发了人们对座舱体验的全新思考和定义,而其中声音体验逐渐成为尤其重要并受到广泛关注的环节。汽车音频技术也因此迎来了新风口下的发展机遇。此次演讲会具体分析汽车音频新机遇的产生原因,并且展开介绍新的体验驱动思路下音频技术在汽车领域的应用场景以及面临的多种技术挑战。希望在此过程中抛砖引玉,引发业内同仁的关注和思考,在新能源汽车大背景下推动音频技术的普及应用。
演讲提纲:
1.汽车音频技术发展历史
2.汽车音频新机遇的形成
3.汽车音频技术应用场景
4.汽车音频技术挑战及展望
15:10-15:45 音频AIGC在喜马拉雅的研发以及落地 卢恒 喜马拉雅首席科学家
随着神经网络以及大模型技术的兴起,多模态以及语音大模型技术也成为了研究热点。本次分享主要介绍喜马拉雅语音大模型技术,包括语音生成以及风格转换的大模型的研究以及落地。同同时介绍多模态情感识别大模型在语音交互中的应用。
演讲提纲:
- 语音生成大模型
- 多模态情感识别
- 音频AIGC在喜马拉雅的落地应用
15:45-16:20 声网凤鸣AI引擎:AI音频降噪、AI回声消除和3D空间音频算法的实现与应用 吴渤 声网音频算法专家
声网凤鸣AI引擎包含了AI降噪、AI回声消除、空间音频等在内的声网新一代智能音频技术。其中凤鸣·AI降噪采用均衡的损失函数组合方案来兼顾强降噪与高保真,采用噪声抑制和远场去混响一体化模型在强降噪的同时实现远场混响抑制;凤鸣·AI回声消除采用均衡的损失函数组合方案来兼顾非线性回声抑制和近端语音保护,实现高保真音频体验;凤鸣·空间音频通过纯软件算法方案,模拟头部球面区域立体声场,利用范围音频、人声模糊、空气衰减模拟等能力,模拟现实听觉感受。
演讲提纲:
- 凤鸣AI引擎在解决音频领域多个核心问题上的价值
- 基于传统信号处理的音频算法在实际应用中的问题
- 基于人工智能的音频降噪算法的研究与应用
- 基于人工智能的回声消除算法的研究与应用
- 基于3D空间音频技术的研究与应用
- 总结与展望
16:20-16:55 游戏场景下的音频内容生成式技术 朱鹏程 网易伏羲语音算法专家
随着深度学习技术的发展,语音技术逐渐在生活的各个应用场景落地生根。在本次报告中,将结合游戏场景下,音频内容生成的需求与实际问题,分享网易伏羲在生成式音频技术上的经验与成果。同时,对未来游戏场景下,音频内容生成式技术的趋势进行展望。
演讲提纲:
- 游戏剧情音频内容生成
- 游戏实时语音生成玩法
- 实时语音转换技术
- 游戏场景下,音频技术尚未解决的需求
16:55-17:30 声反馈系统的技术实践 袁鋆 蛙声科技音频算法工程师
声反馈系统主要包含回声消除和啸叫抑制两个方向,两者区别在于播放的源数据来自于远端还是本地,同时两者在算法上又能共通。本次报告,主要介绍在这两个方向上我们从结构设计,传统算法的优化,AI算法的落地当中的一些技术实践经验,并且对当下相关产品的需求和痛点做了总结以及对未来的优化方向做了一个展望。
演讲摘要:
1.回声消除算法技术分享
2.啸叫抑制算法技术分享
3.声反馈系统的应用和需求
4.声反馈系统的未来展望
14:00 -18:30
(生态专场)第三届RTE创新大赛决赛
三年来,超音速计划见证着新场景新技术的萌芽与成长,尤其在 AI 的加持下,创业者正在向更细分的场景探索 RTE 的潜力。AIGC、心理疗愈、低代码……越来越多的场景都在强调沉浸感与互动性。今年,这些令人惊叹的新技术、新场景以及新应用都将亮相第三届RTE创新大赛决赛!超音速计划年度八强以及海外RTE优胜者将现场角逐全球三强!
14:00-14:05 开场致辞 赵斌,声网创始人兼CEO
14:05-14:35 炉边谈话:长期主义与创业全球化 主持人:赵斌,声网创始人兼CEO/嘉宾:刘凯 五源资本合伙人
/罗超 纪源资本执行董事
14:35-16:30 2023年超音速计划年度八强路演
16:30-17:20 2023年海外startup battlefield获胜团队路演
17:20-18:00 校友圆桌:未来独角兽-探索RTE边界的先行者 主持人:王式,极客公园变量资本高级研究员 嘉宾:陈悦 有大科技创始人兼CEO/李诗淼 蚁触科技COO/栾轩 Emerge创始人
18:00-18:30 RTE创新大赛年度三强颁奖典礼