Skip to content

OpenDCAI/DCAI-Starter-Guide

Repository files navigation

OpenDCAI Tutorial

Data-Centric AI 学习指南

项目简介

OpenDCAI Tutorial 是面向 Data-Centric AI (DCAI) 方向的系统性学习指南,由 PKU-DCAI 实验室维护。本项目整合了 DCAI 各核心研究方向的课程、论文和实战教程,帮助初学者从基础概念到动手实践,快速建立对 Data-Centric AI 的全面认识。

Data-Centric ML 是研究使用数据生成、选择与配比等方法实现大规模、高效以及提升模型表现的研究方向。与以模型为中心 (Model-Centric) 的思路不同,DCAI 强调通过改进数据质量、数据组织和数据流程来系统性地提升 AI 系统的效果。

学习路线图

建议按照以下顺序学习,根据个人背景可跳过已掌握的模块:

前置知识 ──> DCAI 基础 ──> 核心方法论 ──> 领域应用 ──> 工具与进阶
  (00)         (01)       (02-06)       (07-08)      (09-10)
编号 模块 说明
00 前置知识 ML/DL、LLM、RL/RLHF 基础课程与资料
01 DCAI 基础 MIT DCAI 2024、华盛顿大学 DCAI 课程、领域综述
02 数据选择与配比 Data Selection、Data Mixing 方法与论文
03 数据生成 LLM 驱动的合成数据生成、可控数据生成
04 数据评估 Image/Video 数据评估、CLIPScore 等
05 数据处理 Data Cleaning、Data Filtering、Scaling Laws
06 多模态数据侧 Image/Video LLMs、Data-Centric VLMs
07 强推理模型与数据 AI4Math、Code、Science 推理数据
08 实战:LLM 数学微调 基于 LLaMA-Factory + GSM8K 的完整微调 Pipeline
09 DCAI 工具与系统 DataFlow 数据准备 + DataFlex 数据训练
10 RAG、数据抽取与智能助手 GraphRAG、Raptor、DataMind Agentic RAG

快速开始

  • 零基础入门:从 00-prerequisites 开始,了解 ML/DL 和 LLM 基本概念
  • 有 ML 基础:直接从 01-dcai-foundations 开始,学习 DCAI 核心概念
  • 想动手实践:跳到 08-llm-math-guide,跟着教程用 LLaMA-Factory 微调一个数学 LLM
  • 选择细分方向:浏览 02-06 了解各研究子方向,找到感兴趣的方向深入

参考资料

贡献指南

欢迎通过 PR 贡献新的教程、补充论文列表或完善现有内容。每个模块文件夹下的 README.md 包含该方向的核心资源,可直接在其中添加内容。


Copyright © 2025 by PKU-DCAI. All rights reserved.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors