发布时间 : 2023-03-08 阅读量 : 145
数字化时代,传统的会议ag旗舰厅官方网站的解决方案已经无法满足高效协同需求,企业对于多端、多人、多元场景线上协作效率有了更高的要求。本期客户是国际知名通讯和协作ag旗舰厅官方网站的解决方案企业,其业务重点之一是向企业用户提供稳定高效智能的线上会议沟通工具。
当下,线上会议已成为越来越多企业和个人用户灵活办公和通讯的选择。客户作为知名线上会议沟通工具供应商,时刻关注ai新技术创新与应用,有侧重的运用ai技术实现在线会议场景不断智能迭代,并希望通过magic data数据服务,赋能产品功能与性能的迭代升级,增加线上沟通效率、打造产品优势并最终提高整体用户体验。
目前基本市面上所有的视频会议都能够支持流畅、实时、清晰的视频通话,但除了实时高效的音视频通信体验,会议实时人声转录也成为用户在使用在线会议应用时的关键诉求。人声转录可以为用户后续整理会议记录、内容检索、总结会后行动清单等工作提供极大便利,同时也有助于帮助用户理解会议中说话人的口音、外语表达。
客户主要挑战有:
会议人声转录的核心技术是asr识别技术,对于会议音频来说,最大的挑战是如何进行多人会议场景连续检测说话人切换, 如何把之前讲的和之后讲的信号聚合在一起;
同时,会议是自然场景下的自发对话,并可能伴有多种环境音,说话人自发对话状态下干净语音和噪声环境下的语音识别是关键;
以及,为实现自动会议摘要、会议关键信息提取等nlp任务,还需要有足够的针对会议办公场景的训练数据。
因此,客户希望借助magic data相关数据服务,达成模型迭代,实现准确转录会议人发言内容、识别发言人意图并实时整理为会议纪要功能性能提升。
magic data分析了客户对实现会议人声转录和会议语料文本摘要的需求,提供了多模态成品数据方案,在满足客户对会议场景数据需求特点的同时,快速交付了完整的高质量多人会议对话多模态数据集。
数据集有以下特点:
1)magic data模拟了真实的会议场景,说话人在无任何稿件提示的情况下自发就会议主题进行讨论,采集音频中完整呈现真实会议场景下的语音特点,同时确保了数据的合规性。
2)在进行数据采集时,考虑客户对实现多人会议场景连续检测说话人切换所需要的声源定位和声纹识别的需求,采用了多设备采集的方案,同步采集多通道声音信号,同时每个说话人均配备单独的收音设备。
3)在语料覆盖程度上,magic data数据覆盖了大部分常见会议主题,包括公司活动、员工福利、员工培训、产品设计、产品优化、营销活动、业务管理、团队管理等并对转写文本进行了自然语言处理标注,抽取出主讲人、参与人、主题、强调要点、会议结论等关键信息。 数据详情:
asr会议文本转写样例:
此外,考虑到国内会议人不同地域、不同年龄段口音的复杂性,magic data还提供了中国方言自发式对话式数据集,帮助提升客户语音识别模型的方言识别能力。
通过采用magic data会议场景相关多人自发对话数据,高效实现了多人会话下的说话人语音识别及会话转录功能性能提升,并同时实现了文本摘要功能迭代升级。客户表示,“magic data的一站式数据服务,帮我们减少了多方采购整合不同数据类型和ai工程数据处理中间环节的工作量。这次应用功能的成功迭代,对产品用户粘性和品牌好感度都有不错的提升。”