使用:hfd工具下载数据集
1.确认脚本功能与环境变量
已设置环境变量 HF_ENDPOINT
指向镜像站(避免直连 Hugging Face 主站):
(若要永久生效,可写入 ~/.bashrc
或系统环境变量)
export HF_ENDPOINT=https://hf-mirror.com (若要永久生效,可写入 ~/.bashrc 或系统环境变量)
2.构造下载命令
hfd.sh
一般支持通过 Hugging Face 资源标识符(类似 用户名/数据集名
)触发下载。针对你页面里的数据集 Congliu/Chinese-DeepSeek-R1-Distill-data-110k
,下载命令格式如下
bash hfd.sh datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./downloaded_data 参数说明: datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k:Hugging Face 数据集的唯一标识(格式:datasets/用户名/数据集名称 )。 --local-dir ./downloaded_data:指定下载到本地的目录(./downloaded_data 是当前目录下新建 downloaded_data 文件夹,可自定义路径 )
2.1(方法二)下载命令
在 PowerShell(已处于 D:\code\2025\6\26
目录下)中执行:
huggingface-cli download --repo-type dataset --resume-download Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k
各参数详细说明
--repo-type dataset
:明确告知huggingface - cli
要下载的仓库类型是数据集,因为该工具也支持下载模型、Space 等其他类型的 Hugging Face 仓库,避免工具误判 。--resume-download
:启用续传功能。若下载过程中因网络中断、程序意外退出等情况暂停,下次执行相同命令时,工具会从上次中断的位置继续下载,无需重新从头开始,节省时间和流量 。Congliu/Chinese-DeepSeek-R1-Distill-data-110k
:这是 Hugging Face 平台上该数据集的唯一标识,Congliu
是数据集上传者的用户名,Chinese-DeepSeek-R1-Distill-data-110k
是数据集名称,工具通过这个标识找到对应的数据集资源 。--local-dir ./Chinese-DeepSeek-R1-Distill-data-110k
:--local-dir 用于指定数据集下载到本地的目录。./ 表示当前目录(也就是你执行命令时所在的 D:\code\2025\6\26 目录 )。Chinese-DeepSeek-R1-Distill-data-110k 是要在当前目录下创建的用于存储数据集的文件夹名称,下载的所有数据集文件都会放到这个文件夹里,方便管理和查找 。你也可以根据需求修改这个文件夹名称,比如想放到 ./my_datasets 目录下,可改为 --local-dir ./my_datasets/Chinese-DeepSeek-R1-Distill-data-110k ,工具会自动创建对应的目录结构并存储数据。
假设你想下载该数据集中的 distill_r1_110k.jsonl
文件(可根据实际要下载的文件名调整 ),在 PowerShell 处于 D:\code\2025\6\26
目录下时,执行:
huggingface-cli download --repo-type dataset --resume-download Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k --files distill_r1_110k.jsonl
各参数详细解释
--repo-type dataset
:指定下载的仓库类型为数据集,让huggingface - cli
明确操作对象类别 。--resume-download
:启用续传功能,若下载中断,后续可从断点继续,无需重新开始 。Congliu/Chinese-DeepSeek-R1-Distill-data-110k
:Hugging Face 平台上对应数据集的标识,用于定位要下载的数据集资源 。--local-dir ./Chinese-DeepSeek-R1-Distill-data-110k
:设定数据集(及指定文件)下载到本地的目录,./
表示当前所在的D:\code\2025\6\26
目录,会在该目录下创建Chinese-DeepSeek-R1-Distill-data-110k
文件夹存储下载内容 。--files distill_r1_110k.jsonl
:--files
参数用于指定要下载的具体文件,后面紧跟要下载的文件名。如果要下载多个文件,可按如下格式写(以逗号分隔多个文件名 ):
huggingface-cli download --repo-type dataset --resume-download Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k --files distill_r1_110k.jsonl,another_file.txt
这里的 another_file.txt
只是示例,实际要替换成数据集中真实存在的其他你想下载的文件名 。
3.执行下载并检验
在 Git Bash(或终端)中,切换到 hfd.sh
所在目录,执行上述命令:
# 假设脚本在当前目录,数据集标识符正确 bash hfd.sh datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./downloaded_data
脚本运行后,会自动从 HF Mirror 镜像站拉取数据,下载完成后:
- 检查
./downloaded_data
目录(或你指定的路径),确认distill_r1_110k.jsonl
等文件是否存在。 - 若需下载特定文件(如只想要
distill_r1_110k.jsonl
),可尝试添加--files
参数(需脚本支持,格式参考 ):
bash hfd.sh datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./downloaded_data --files distill_r1_110k.jsonl