Skip to content

数据集

概述

平台可统一纳管用于模型微调的数据集,并支持对数据集进行多版本迭代、增量导入和删除等操作。若您当前尚未准备可用数据集,也可选择平台的共享数据集,来体验模型微调或评估。

登录到平台,在左侧功能列选择【数据集】,进入数据集管理界面。

不同数据用途和数据格式的数据集,将服务于不同的模型精调方式,您需重点关注数据格式。

查看数据集列表

平台支持统一纳管训练模型的数据集,并支持对数据集进行制作、上传、预览、共享、删除等操作。

数据集列表界面

创建数据集

标准创建方式

点击【创建我的数据集】,按以下步骤完成创建:

  1. 填写数据集名称
  2. 选择数据集类型
  3. 勾选是否共享等基本信息
  4. 选择 JSON 格式的文件上传数据集

创建数据集界面

平台也提供了不同数据类型的格式范例,可根据具体需求下载参考。

数据格式范例

数据类型说明

平台数据集当前支持以下五种类型:

数据类型用途描述
Prompt+Response文本生成场景的有监督微调(SFT)单轮或多轮的文本对话数据,提问与回答一一对应
Role(user+assistant)文本生成场景的有监督微调(SFT)单轮或多轮的文本对话数据,支持多角色类型与 Function Call 工具调用
纯文本预训练(Post-pretrain)特定行业方向/场景下的大规模无标注数据语料
Prompt+Chosen/Rejected偏好对齐(KTO)单轮或多轮的文本对话数据,每个提示语存在对应的正或负偏好回答
Prompt+多 Response 排序RLHF 奖励模型微调单轮或多轮的文本对话数据,单个提问对应多个回答,多个回答间带有先后排序关系

快速创建数据集

为方便用户快速完成功能体验,平台支持快速将 CSV、XLSX、JSON、JSONL 格式文件制作为用于模型微调&评估的数据集。

快速创建数据集入口

操作示例

以将一份智能助手的表格数据转换为训练使用的数据集为例:

表格数据示例

配置步骤

  1. 勾选所需的列作为输入项(可多选)
  2. 勾选所需的列作为输出项(仅可单选)

列选择配置

点击保存即可,数据集即制作成功。

创建成功提示

共享数据集

共享数据集是平台提供的一项数据协作功能,允许不同用户之间进行数据资源的共享和复用。通过设置数据集为共享状态,您可以将自己创建的数据集开放给其他用户使用,或获取其他用户共享的数据集,从而实现数据资源的高效流通与利用,加速模型训练和评估过程。

共享功能界面

共享数据集列表

共享数据集详情

使用建议

  1. 数据格式选择:根据训练任务类型选择合适的数据格式
  2. 数据质量检查:确保上传的数据集格式正确、内容完整
  3. 合理命名:为数据集设置清晰的名称和描述,便于后续查找和使用
  4. 权限管理:根据需要合理设置数据集的共享状态
  5. 版本控制:对重要数据集进行版本管理,确保数据一致性

通过有效的数据集管理,您可以:

  • 提高模型训练效率
  • 确保训练数据质量
  • 促进团队协作和数据共享
  • 加速 AI 应用开发流程