使用:hfd工具下载数据集

1.确认脚本功能与环境变量

已设置环境变量 HF_ENDPOINT 指向镜像站(避免直连 Hugging Face 主站):

(若要永久生效,可写入 ~/.bashrc 或系统环境变量)

export HF_ENDPOINT=https://hf-mirror.com
(若要永久生效,可写入 ~/.bashrc 或系统环境变量)

2.构造下载命令

hfd.sh 一般支持通过 Hugging Face 资源标识符(类似 用户名/数据集名 )触发下载。针对你页面里的数据集 Congliu/Chinese-DeepSeek-R1-Distill-data-110k,下载命令格式如下

bash hfd.sh datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./downloaded_data
参数说明:
datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k:Hugging Face 数据集的唯一标识(格式:datasets/用户名/数据集名称 )。
--local-dir ./downloaded_data:指定下载到本地的目录(./downloaded_data 是当前目录下新建 downloaded_data 文件夹,可自定义路径 )

2.1(方法二)下载命令

在 PowerShell(已处于 D:\code\2025\6\26 目录下)中执行:

huggingface-cli download --repo-type dataset --resume-download Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k

各参数详细说明

  • --repo-type dataset:明确告知 huggingface - cli 要下载的仓库类型是数据集,因为该工具也支持下载模型、Space 等其他类型的 Hugging Face 仓库,避免工具误判 。
  • --resume-download:启用续传功能。若下载过程中因网络中断、程序意外退出等情况暂停,下次执行相同命令时,工具会从上次中断的位置继续下载,无需重新从头开始,节省时间和流量 。
  • Congliu/Chinese-DeepSeek-R1-Distill-data-110k:这是 Hugging Face 平台上该数据集的唯一标识,Congliu 是数据集上传者的用户名,Chinese-DeepSeek-R1-Distill-data-110k 是数据集名称,工具通过这个标识找到对应的数据集资源 。
  • --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k:--local-dir 用于指定数据集下载到本地的目录。./ 表示当前目录(也就是你执行命令时所在的 D:\code\2025\6\26 目录 )。Chinese-DeepSeek-R1-Distill-data-110k 是要在当前目录下创建的用于存储数据集的文件夹名称,下载的所有数据集文件都会放到这个文件夹里,方便管理和查找 。你也可以根据需求修改这个文件夹名称,比如想放到 ./my_datasets 目录下,可改为 --local-dir ./my_datasets/Chinese-DeepSeek-R1-Distill-data-110k ,工具会自动创建对应的目录结构并存储数据。

假设你想下载该数据集中的 distill_r1_110k.jsonl 文件(可根据实际要下载的文件名调整 ),在 PowerShell 处于 D:\code\2025\6\26 目录下时,执行:

huggingface-cli download --repo-type dataset --resume-download Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k --files distill_r1_110k.jsonl

各参数详细解释

  • --repo-type dataset:指定下载的仓库类型为数据集,让 huggingface - cli 明确操作对象类别 。
  • --resume-download:启用续传功能,若下载中断,后续可从断点继续,无需重新开始 。
  • Congliu/Chinese-DeepSeek-R1-Distill-data-110k:Hugging Face 平台上对应数据集的标识,用于定位要下载的数据集资源 。
  • --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k:设定数据集(及指定文件)下载到本地的目录,./ 表示当前所在的 D:\code\2025\6\26 目录,会在该目录下创建 Chinese-DeepSeek-R1-Distill-data-110k 文件夹存储下载内容 。
  • --files distill_r1_110k.jsonl--files 参数用于指定要下载的具体文件,后面紧跟要下载的文件名。如果要下载多个文件,可按如下格式写(以逗号分隔多个文件名 ):
huggingface-cli download --repo-type dataset --resume-download Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k --files distill_r1_110k.jsonl,another_file.txt

这里的 another_file.txt 只是示例,实际要替换成数据集中真实存在的其他你想下载的文件名 。

3.执行下载并检验

在 Git Bash(或终端)中,切换到 hfd.sh 所在目录,执行上述命令:

# 假设脚本在当前目录,数据集标识符正确
bash hfd.sh datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./downloaded_data

脚本运行后,会自动从 HF Mirror 镜像站拉取数据,下载完成后:

  • 检查 ./downloaded_data 目录(或你指定的路径),确认 distill_r1_110k.jsonl 等文件是否存在。
  • 若需下载特定文件(如只想要 distill_r1_110k.jsonl ),可尝试添加 --files 参数(需脚本支持,格式参考 ):
bash hfd.sh datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./downloaded_data --files distill_r1_110k.jsonl

全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务