使用:hfd工具下载数据集

1.确认脚本功能与环境变量

已设置环境变量 HF_ENDPOINT 指向镜像站(避免直连 Hugging Face 主站):

(若要永久生效,可写入 ~/.bashrc 或系统环境变量)

export HF_ENDPOINT=https://hf-mirror.com
(若要永久生效,可写入 ~/.bashrc 或系统环境变量)

2.构造下载命令

hfd.sh 一般支持通过 Hugging Face 资源标识符(类似 用户名/数据集名 )触发下载。针对你页面里的数据集 Congliu/Chinese-DeepSeek-R1-Distill-data-110k,下载命令格式如下

bash hfd.sh datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./downloaded_data
参数说明:
datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k:Hugging Face 数据集的唯一标识(格式:datasets/用户名/数据集名称 )。
--local-dir ./downloaded_data:指定下载到本地的目录(./downloaded_data 是当前目录下新建 downloaded_data 文件夹,可自定义路径 )

2.1(方法二)下载命令

在 PowerShell(已处于 D:\code\2025\6\26 目录下)中执行:

huggingface-cli download --repo-type dataset --resume-download Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k

各参数详细说明

  • --repo-type dataset:明确告知 huggingface - cli 要下载的仓库类型是数据集,因为该工具也支持下载模型、Space 等其他类型的 Hugging Face 仓库,避免工具误判 。
  • --resume-download:启用续传功能。若下载过程中因网络中断、程序意外退出等情况暂停,下次执行相同命令时,工具会从上次中断的位置继续下载,无需重新从头开始,节省时间和流量 。
  • Congliu/Chinese-DeepSeek-R1-Distill-data-110k:这是 Hugging Face 平台上该数据集的唯一标识,Congliu 是数据集上传者的用户名,Chinese-DeepSeek-R1-Distill-data-110k 是数据集名称,工具通过这个标识找到对应的数据集资源 。
  • --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k:--local-dir 用于指定数据集下载到本地的目录。./ 表示当前目录(也就是你执行命令时所在的 D:\code\2025\6\26 目录 )。Chinese-DeepSeek-R1-Distill-data-110k 是要在当前目录下创建的用于存储数据集的文件夹名称,下载的所有数据集文件都会放到这个文件夹里,方便管理和查找 。你也可以根据需求修改这个文件夹名称,比如想放到 ./my_datasets 目录下,可改为 --local-dir ./my_datasets/Chinese-DeepSeek-R1-Distill-data-110k ,工具会自动创建对应的目录结构并存储数据。

假设你想下载该数据集中的 distill_r1_110k.jsonl 文件(可根据实际要下载的文件名调整 ),在 PowerShell 处于 D:\code\2025\6\26 目录下时,执行:

huggingface-cli download --repo-type dataset --resume-download Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k --files distill_r1_110k.jsonl

各参数详细解释

  • --repo-type dataset:指定下载的仓库类型为数据集,让 huggingface - cli 明确操作对象类别 。
  • --resume-download:启用续传功能,若下载中断,后续可从断点继续,无需重新开始 。
  • Congliu/Chinese-DeepSeek-R1-Distill-data-110k:Hugging Face 平台上对应数据集的标识,用于定位要下载的数据集资源 。
  • --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k:设定数据集(及指定文件)下载到本地的目录,./ 表示当前所在的 D:\code\2025\6\26 目录,会在该目录下创建 Chinese-DeepSeek-R1-Distill-data-110k 文件夹存储下载内容 。
  • --files distill_r1_110k.jsonl--files 参数用于指定要下载的具体文件,后面紧跟要下载的文件名。如果要下载多个文件,可按如下格式写(以逗号分隔多个文件名 ):
huggingface-cli download --repo-type dataset --resume-download Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k --files distill_r1_110k.jsonl,another_file.txt

这里的 another_file.txt 只是示例,实际要替换成数据集中真实存在的其他你想下载的文件名 。

3.执行下载并检验

在 Git Bash(或终端)中,切换到 hfd.sh 所在目录,执行上述命令:

# 假设脚本在当前目录,数据集标识符正确
bash hfd.sh datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./downloaded_data

脚本运行后,会自动从 HF Mirror 镜像站拉取数据,下载完成后:

  • 检查 ./downloaded_data 目录(或你指定的路径),确认 distill_r1_110k.jsonl 等文件是否存在。
  • 若需下载特定文件(如只想要 distill_r1_110k.jsonl ),可尝试添加 --files 参数(需脚本支持,格式参考 ):
bash hfd.sh datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./downloaded_data --files distill_r1_110k.jsonl

全部评论

相关推荐

已经到实习末期了吧,在字节干了快半年后端,最近感觉好闲,真的,已经开始emo了,5月的时候问mt说转正的事,说有一个hc,让我做完需求就可以开始准备了,说我没问题,好了,需求做完了,前天吃饭问了下mt转正的事,已经6月末了快,很难不问,然后就变成了,他也不知道,帮我问问ld,我真的服啦,你说这扯不扯,哎,字节啊字节,哈哈,maybe真的是每个季度都要盘hc吧,现在又安排上需求了,技术方案写了,发过来一看,gpt生成的方案,不是哥们,,那既然都这样了,再混混吧,也怪我菜,因为5月说有hc我就没再广投暑期了,投了鹅子,只怪自己菜,直接滑跪,这个时间点,说白了,哪都去不了了哈哈,待着吧,等秋招了,有没有hc真的就无所谓了,其实闲了2周多了,接口一个写一周,前一周在想要不要学学LLM,倒是跟着视频搭了简单的模型出来,但很快就陷入了自我怀疑🤨,这么短的时间是没办法学完LLM到找到工作的,再怎么学都是浪费时间,真的心累,这后端干的真的心累,这半年的实习,真的看得到后端的头了,这个岗位没有任何深度,只有复杂度,更坏的情况就是,甚至就是简单的东西疯狂叠出来的山,想想当初室友建议我学搜广推,真的算是他明智,我跟他都进了字节,虽然感觉他很累但是真的很充实,maybe,虽然言语中还是能get到他的mt对他的可能的pua,但是人家有hc,哥们真是路边一条,真的是干的人心累,但是我又该去哪啊,真的,给哥们干迷茫了,真的很享受那种在学校里提升自己的感觉,实习后再也感觉不到了,也很想提升自己,发现真的到这个阶段了就特别难,确诊不适合上班症,只想耍,耍,耍希望秋招对哥们温柔点,别变成无业人员了
下北澤大天使:哥对自己要求太严格了,秋招你包offer打牌的也不用太纠结hc,秋招最好还是参加,退一万步字节给你hc了能保证它不给你压价吗?多面试多条选择,也好a一下起薪,说不定还有给你ssp的厂
点赞 评论 收藏
分享
头像
06-25 17:05
南京大学 Java
投递阿里巴巴集团等公司10个岗位 实习与准备秋招该如何平衡 牛客创作赏金赛
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务