数据集

概述

平台可统一纳管用于模型微调的数据集，并支持对数据集进行多版本迭代、增量导入和删除等操作。若您当前尚未准备可用数据集，也可选择平台的共享数据集，来体验模型微调或评估。

登录到平台，在左侧功能列选择【数据集】，进入数据集管理界面。

不同数据用途和数据格式的数据集，将服务于不同的模型精调方式，您需重点关注数据格式。

查看数据集列表

平台支持统一纳管训练模型的数据集，并支持对数据集进行制作、上传、预览、共享、删除等操作。

数据集列表界面

创建数据集

标准创建方式

点击【创建我的数据集】，按以下步骤完成创建：

填写数据集名称
选择数据集类型
勾选是否共享等基本信息
选择 JSON 格式的文件上传数据集

创建数据集界面

平台也提供了不同数据类型的格式范例，可根据具体需求下载参考。

数据格式范例

数据类型说明

平台数据集当前支持以下五种类型：

数据类型	用途	描述
Prompt+Response	文本生成场景的有监督微调(SFT)	单轮或多轮的文本对话数据，提问与回答一一对应
Role(user+assistant)	文本生成场景的有监督微调(SFT)	单轮或多轮的文本对话数据，支持多角色类型与 Function Call 工具调用
纯文本	预训练(Post-pretrain)	特定行业方向/场景下的大规模无标注数据语料
Prompt+Chosen/Rejected	偏好对齐(KTO)	单轮或多轮的文本对话数据，每个提示语存在对应的正或负偏好回答
Prompt+多 Response 排序	RLHF 奖励模型微调	单轮或多轮的文本对话数据，单个提问对应多个回答，多个回答间带有先后排序关系

快速创建数据集

为方便用户快速完成功能体验，平台支持快速将 CSV、XLSX、JSON、JSONL 格式文件制作为用于模型微调&评估的数据集。

快速创建数据集入口

操作示例

以将一份智能助手的表格数据转换为训练使用的数据集为例：

表格数据示例

配置步骤：

勾选所需的列作为输入项（可多选）
勾选所需的列作为输出项（仅可单选）

列选择配置

点击保存即可，数据集即制作成功。

创建成功提示

共享数据集

共享数据集是平台提供的一项数据协作功能，允许不同用户之间进行数据资源的共享和复用。通过设置数据集为共享状态，您可以将自己创建的数据集开放给其他用户使用，或获取其他用户共享的数据集，从而实现数据资源的高效流通与利用，加速模型训练和评估过程。

共享功能界面

共享数据集列表

共享数据集详情

使用建议

数据格式选择：根据训练任务类型选择合适的数据格式
数据质量检查：确保上传的数据集格式正确、内容完整
合理命名：为数据集设置清晰的名称和描述，便于后续查找和使用
权限管理：根据需要合理设置数据集的共享状态
版本控制：对重要数据集进行版本管理，确保数据一致性

通过有效的数据集管理，您可以：

提高模型训练效率
确保训练数据质量
促进团队协作和数据共享
加速 AI 应用开发流程

数据集 ​

概述 ​

查看数据集列表 ​

创建数据集 ​

标准创建方式 ​

数据类型说明 ​

快速创建数据集 ​

操作示例 ​

共享数据集 ​

共享功能界面 ​

使用建议 ​

数据集

概述