发布时间 : 2024-01-08 阅读量 : 225
能够流畅地与人类进行多轮交谈,是现今的大语言模型 (llm) 区别于传统语言模型的重要特征之一。大模型可以使用自然语言对话与用户互动,从用户提供的 prompt 中理解指令、用户意图和上下文,并提供适当的反馈。
虽然对话对人类来说是自然的,但构建具备多轮对话能力的大模型是一项不小的挑战,收集具备高表现力的训练数据就是其中关键的一环。
晴数智慧深耕对话式ai领域多年,构建了累计千万轮llm多领域超自然sft多轮对话文本数据集,覆盖近20个语种及方言,语料话题分布广泛,涉及休闲娱乐、衣食住行、教育医疗等近20个领域。
每组对话由两名说话人围绕一个主题展开,历史的对话与当前的内容密切相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑堆理能力。同时贴合场景的自发对话赋予了数据极高的表现力,高表现力的数据带来的丰富信息维度能够使得模型更容易学到人类自然交谈的特点,从而实现更强大、泛化能力更好的模型性能。
数据样例
游戏主题
创业主题
晴数智慧llm多领域超自然sft多轮对话文本数据集处理过程遵循完整的晴数智慧数据合规保障机制,在整个数据生命周期中,保证数据的流转可溯性,确保数据ag旗舰厅官方网站的版权完整。
更多数据详情,咨询我们的数据专家。