最新发布!查看 magicdata 成品数据集

magic data-ag娱乐官网官方网站

press images

发布时间 : 2023-02-23     阅读量 : 131

作为时下最热的赛道之一,新能源汽车制造业的“内卷”程度有目共睹。而电动化、智能化、网联化、自动化的“新四化”发展趋势,也正重新定位汽车行业的价值链。

本期客户就是国内高端智能电动汽车领航者之一,其愿景是将智能汽车打造为数智化第三空间。

一直以来,智能驾舱都是客户公司“智行”战略重点方向之一,是客户产品的重要卖点。在接触magic data前,客户已有部分基础智能模型,秉承着更好服务车主的想法,客户希望借助magic data全链条数据服务,通过迭代当前基础模型和不断增加新功能,实现产品智能座舱差异化优势,打造市场领先产品。

其中,客户需求重点是针对自然对话场景迭代人机交互模型(特别是提高噪音环境下的识别),提高智能助手的语音识别、交互理解能力以及常见使用场景下的任务完成能力(对话场景下的具体任务,例如:订餐)。

受限于数据合规、语料不足等问题,客户座舱内语音助手模型迭代存在一些掣肘,如:

  • 缺乏可用的舱内对话数据:客户直接使用用户舱内数据可能存在合规风险,进而导致模型迭代进度滞后。
  • 缺乏对话数据中具体场景、领域对话数据:当前市面上,垂直领域对话数据稀缺,导致模型多轮对话训练难以正常进行。
  • 个性化控制命令泛化语料匮乏:对于舱内人机交互现有的,以及在使用中用户新产生的个性化指令与需求,需要有基于真实场景下的个性化定制数据供模型训练使用。

客户希望借助magic data的服务,使模型达到“无论用户有什么新的想法、需求,舱内智能助手都能够顺利识别用户意图并与之产生自然交互”的成熟状态。

magic data通过与客户多次深入沟通,分析客户的需求,针对客户痛点提供了成品数据集为主、定制化采标为辅助的整体ag旗舰厅官方网站的解决方案:

  • 针对舱内人机交互不自然问题,magic data提供了大量基于模拟真实场景下的自然对话成品数据集,包括无噪音及带噪音模拟舱内对话数据,包含人们自然说话状态下可能包含的犹豫、迟疑等发音特点,帮助提升机器在自然对话场景下的语音识别准确率。
  • 针对智能助手完成功能型任务需求,magic data提供了各类领域相关对话数据,如旅游度假、数码产品、休闲娱乐、商业经济、家庭生活等领域的丰富多样的主题语料,帮助提高机器完成特定领域具体任务能力。
  • 针对命令控制的泛化需求,magic data在提供成品泛化库同时,提供了定制命令泛化服务。针对单个功能点,最多泛化语料高达400条,以覆盖用户可能使用的每个潜在短语,帮助机器准确捕捉用户意图。

(为了确保数据的高质量合规交付,magic data提供的成品数据集及定制采标数据都经由智能标注平台annotator和文本泛化平台处理。)

方案中使用的部分magic data成品数据集

(点击可直接跳转)

asr:

mdt-asr-c001中文普通话朗读音频数据集–人机交互、命令控制

–自由对话

–自由对话

nlp:

–中文新闻命名实体

–空调命令文本母句,含有槽位及槽值

–座椅命令文本为母句数据,涉及到动词及句式的泛化,对功能(实体),连词及介词充分设计成槽位及槽值

tts:

mdt-tts-d003中文女声情感tts数据集–亲切女生(中文、英文、中英混)

–男中音(中文)

通过采用magic data整体数据ag旗舰厅官方网站的解决方案,客户高效完成了其智能座舱人机交互系统迭代,智能语音识别模型性能有显著提升,特别是在自然对话交互中,字识别错误率下降了大约30%。对此,客户表示:”magic data的专业团队反馈高效,可以在最短时间内明确我们的需求并提供相应的整体ag旗舰厅官方网站的解决方案,对于我们这类时间紧迫的项目有相当大的帮助”。

即刻与 magic data 建立联系?

联系ag旗舰厅官方网站

top
联系ag旗舰厅官方网站
网站地图