数据集
概述
平台可统一纳管用于模型微调的数据集,并支持对数据集进行多版本迭代、增量导入和删除等操作。若您当前尚未准备可用数据集,也可选择平台的共享数据集,来体验模型微调或评估。
登录到平台,在左侧功能列选择【数据集】,进入数据集管理界面。
不同数据用途和数据格式的数据集,将服务于不同的模型精调方式,您需重点关注数据格式。
查看数据集列表
平台支持统一纳管训练模型的数据集,并支持对数据集进行制作、上传、预览、共享、删除等操作。

创建数据集
标准创建方式
点击【创建我的数据集】,按以下步骤完成创建:
- 填写数据集名称
- 选择数据集类型
- 勾选是否共享等基本信息
- 选择 JSON 格式的文件上传数据集

平台也提供了不同数据类型的格式范例,可根据具体需求下载参考。

数据类型说明
平台数据集当前支持以下五种类型:
| 数据类型 | 用途 | 描述 |
|---|---|---|
| Prompt+Response | 文本生成场景的有监督微调(SFT) | 单轮或多轮的文本对话数据,提问与回答一一对应 |
| Role(user+assistant) | 文本生成场景的有监督微调(SFT) | 单轮或多轮的文本对话数据,支持多角色类型与 Function Call 工具调用 |
| 纯文本 | 预训练(Post-pretrain) | 特定行业方向/场景下的大规模无标注数据语料 |
| Prompt+Chosen/Rejected | 偏好对齐(KTO) | 单轮或多轮的文本对话数据,每个提示语存在对应的正或负偏好回答 |
| Prompt+多 Response 排序 | RLHF 奖励模型微调 | 单轮或多轮的文本对话数据,单个提问对应多个回答,多个回答间带有先后排序关系 |
快速创建数据集
为方便用户快速完成功能体验,平台支持快速将 CSV、XLSX、JSON、JSONL 格式文件制作为用于模型微调&评估的数据集。

操作示例
以将一份智能助手的表格数据转换为训练使用的数据集为例:

配置步骤:
- 勾选所需的列作为输入项(可多选)
- 勾选所需的列作为输出项(仅可单选)

点击保存即可,数据集即制作成功。

共享数据集
共享数据集是平台提供的一项数据协作功能,允许不同用户之间进行数据资源的共享和复用。通过设置数据集为共享状态,您可以将自己创建的数据集开放给其他用户使用,或获取其他用户共享的数据集,从而实现数据资源的高效流通与利用,加速模型训练和评估过程。
共享功能界面


使用建议
- 数据格式选择:根据训练任务类型选择合适的数据格式
- 数据质量检查:确保上传的数据集格式正确、内容完整
- 合理命名:为数据集设置清晰的名称和描述,便于后续查找和使用
- 权限管理:根据需要合理设置数据集的共享状态
- 版本控制:对重要数据集进行版本管理,确保数据一致性
通过有效的数据集管理,您可以:
- 提高模型训练效率
- 确保训练数据质量
- 促进团队协作和数据共享
- 加速 AI 应用开发流程
