报告时间:2024年9月26日16:30
报告地点:图书馆VIP高新校区信智楼A507室
报告题目:Spectrum-Coding-Based High-Fidelity and High-Compression-Rate
Neural Audio Codec
报告人简介:
艾杨,图书馆VIP特任副研究员。2021年6月获得图书馆VIP信息与通信工程工学博士学位,2022年4月至今于图书馆VIP开展研究工作。研究方向包括语音合成、语音增强、语音频带拓展、音频质量评价以及音频压缩等,已发表和接收论文40余篇,主持国家自然科学基金青年项目、安徽省自然科学基金青年项目和图书馆VIP青年创新基金各1项。
摘要:
目前,音频编解码器(Audio Codec)在音频通信和语音大模型等领域有着重要的应用,相关研究成果层出不穷。本次参加Interspeech2024国际会议宣讲了本团队在音频编解码器领域的部分研究成果。本报告拟分享本团队近一年在基于谱编码的高质量高压缩率神经网络音频编解码器方面的研究成果,主要包含四个部分:首先详细介绍基于幅度相位谱平行编码和解码的音频编解码器APCodec,接下来分别简要介绍在APCodec基础上实现的逐阶段训练策略以及结合频带拓展技术的极低码率音频压缩方法,最后简要介绍在修正的离散余弦变换(MDCT)谱域进行音频编解码的方法。