昨天 11:36 已编辑上海理工大学 Java 发布于上海

关注

使用：hfd工具下载数据集

1.确认脚本功能与环境变量

已设置环境变量 HF_ENDPOINT 指向镜像站（避免直连 Hugging Face 主站）：

（若要永久生效，可写入 ~/.bashrc 或系统环境变量）

export HF_ENDPOINT=https://hf-mirror.com
（若要永久生效，可写入 ~/.bashrc 或系统环境变量）

2.构造下载命令

hfd.sh 一般支持通过 Hugging Face 资源标识符（类似 用户名/数据集名 ）触发下载。针对你页面里的数据集 Congliu/Chinese-DeepSeek-R1-Distill-data-110k，下载命令格式如下

bash hfd.sh datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./downloaded_data
参数说明：
datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k：Hugging Face 数据集的唯一标识（格式：datasets/用户名/数据集名称 ）。
--local-dir ./downloaded_data：指定下载到本地的目录（./downloaded_data 是当前目录下新建 downloaded_data 文件夹，可自定义路径 ）

2.1（方法二）下载命令

在 PowerShell（已处于 `D:\code\2025\6\26` 目录下）中执行：

huggingface-cli download --repo-type dataset --resume-download Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k

各参数详细说明

--repo-type dataset：明确告知 huggingface - cli 要下载的仓库类型是数据集，因为该工具也支持下载模型、Space 等其他类型的 Hugging Face 仓库，避免工具误判。
--resume-download：启用续传功能。若下载过程中因网络中断、程序意外退出等情况暂停，下次执行相同命令时，工具会从上次中断的位置继续下载，无需重新从头开始，节省时间和流量。
Congliu/Chinese-DeepSeek-R1-Distill-data-110k：这是 Hugging Face 平台上该数据集的唯一标识，Congliu 是数据集上传者的用户名，Chinese-DeepSeek-R1-Distill-data-110k 是数据集名称，工具通过这个标识找到对应的数据集资源。
--local-dir ./Chinese-DeepSeek-R1-Distill-data-110k：--local-dir 用于指定数据集下载到本地的目录。./ 表示当前目录（也就是你执行命令时所在的 D:\code\2025\6\26 目录）。Chinese-DeepSeek-R1-Distill-data-110k 是要在当前目录下创建的用于存储数据集的文件夹名称，下载的所有数据集文件都会放到这个文件夹里，方便管理和查找。你也可以根据需求修改这个文件夹名称，比如想放到 ./my_datasets 目录下，可改为 --local-dir ./my_datasets/Chinese-DeepSeek-R1-Distill-data-110k ，工具会自动创建对应的目录结构并存储数据。

假设你想下载该数据集中的 `distill_r1_110k.jsonl` 文件（可根据实际要下载的文件名调整），在 PowerShell 处于 `D:\code\2025\6\26` 目录下时，执行：

huggingface-cli download --repo-type dataset --resume-download Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k --files distill_r1_110k.jsonl

各参数详细解释

--repo-type dataset：指定下载的仓库类型为数据集，让 huggingface - cli 明确操作对象类别。
--resume-download：启用续传功能，若下载中断，后续可从断点继续，无需重新开始。
Congliu/Chinese-DeepSeek-R1-Distill-data-110k：Hugging Face 平台上对应数据集的标识，用于定位要下载的数据集资源。
--local-dir ./Chinese-DeepSeek-R1-Distill-data-110k：设定数据集（及指定文件）下载到本地的目录，./ 表示当前所在的 D:\code\2025\6\26 目录，会在该目录下创建 Chinese-DeepSeek-R1-Distill-data-110k 文件夹存储下载内容。
--files distill_r1_110k.jsonl：--files 参数用于指定要下载的具体文件，后面紧跟要下载的文件名。如果要下载多个文件，可按如下格式写（以逗号分隔多个文件名）：

huggingface-cli download --repo-type dataset --resume-download Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./Chinese-DeepSeek-R1-Distill-data-110k --files distill_r1_110k.jsonl,another_file.txt

这里的 another_file.txt 只是示例，实际要替换成数据集中真实存在的其他你想下载的文件名。

3.执行下载并检验

在 Git Bash（或终端）中，切换到 hfd.sh 所在目录，执行上述命令：

# 假设脚本在当前目录，数据集标识符正确
bash hfd.sh datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./downloaded_data

脚本运行后，会自动从 HF Mirror 镜像站拉取数据，下载完成后：

检查 ./downloaded_data 目录（或你指定的路径），确认 distill_r1_110k.jsonl 等文件是否存在。
若需下载特定文件（如只想要 distill_r1_110k.jsonl ），可尝试添加 --files 参数（需脚本支持，格式参考）：

bash hfd.sh datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k --local-dir ./downloaded_data --files distill_r1_110k.jsonl

全部评论

推荐最新楼层

06-25 15:51

北京邮电大学 Java

这后端是真不想干了，节子实习浅谈

已经到实习末期了吧，在字节干了快半年后端，最近感觉好闲，真的，已经开始emo了，5月的时候问mt说转正的事，说有一个hc，让我做完需求就可以开始准备了，说我没问题，好了，需求做完了，前天吃饭问了下mt转正的事，已经6月末了快，很难不问，然后就变成了，他也不知道，帮我问问ld，我真的服啦，你说这扯不扯，哎，字节啊字节，哈哈，maybe真的是每个季度都要盘hc吧，现在又安排上需求了，技术方案写了，发过来一看，gpt生成的方案，不是哥们，，那既然都这样了，再混混吧，也怪我菜，因为5月说有hc我就没再广投暑期了，投了鹅子，只怪自己菜，直接滑跪，这个时间点，说白了，哪都去不了了哈哈，待着吧，等秋招了，有没有hc真的就无所谓了，其实闲了2周多了，接口一个写一周，前一周在想要不要学学LLM，倒是跟着视频搭了简单的模型出来，但很快就陷入了自我怀疑🤨，这么短的时间是没办法学完LLM到找到工作的，再怎么学都是浪费时间，真的心累，这后端干的真的心累，这半年的实习，真的看得到后端的头了，这个岗位没有任何深度，只有复杂度，更坏的情况就是，甚至就是简单的东西疯狂叠出来的山，想想当初室友建议我学搜广推，真的算是他明智，我跟他都进了字节，虽然感觉他很累但是真的很充实，maybe，虽然言语中还是能get到他的mt对他的可能的pua，但是人家有hc，哥们真是路边一条，真的是干的人心累，但是我又该去哪啊，真的，给哥们干迷茫了，真的很享受那种在学校里提升自己的感觉，实习后再也感觉不到了，也很想提升自己，发现真的到这个阶段了就特别难，确诊不适合上班症，只想耍，耍，耍希望秋招对哥们温柔点，别变成无业人员了

下北澤大天使：哥对自己要求太严格了，秋招你包offer打牌的

也不用太纠结hc，秋招最好还是参加，退一万步字节给你hc了能保证它不给你压价吗？多面试多条选择，也好a一下起薪，说不定还有给你ssp的厂

牛客创作赏金赛想实习转正，又想准备秋招，我该怎么办

点赞评论收藏

06-24 17:06

牛客首席活动官

【发帖有奖💰】面试问题等你来分享！

每一场面试都值得被记录，记录问题不仅可以进行复盘，还可以和其他牛友讨论"对题"~ 参与活动话题分享面试问题/面试经历，即可获得惊喜奖励！来做牛客面试王👑一、活动细则：1️⃣发布内容添加话题#面试问题记录#  分享面经(公司+岗位+问题)、面试故事、笔试测评题等等...2️⃣即可获得以下奖励👇奖品获奖要求60牛币发1篇字数>50字，即可获得66牛币（单人每周最多可领180牛币）100牛币发提前批/秋招相关公司的面试问题、笔试题目等，字数>50字，即可获得100牛币"蒜鸟"挂件(音效版)综合发布量*内容热度，选取TOP5的用户额外赠送&quo...

面试问题记录

点赞评论收藏

06-19 10:45

华中农业大学数据运营

求解答

想问问各位大佬，为什么是A啊

点赞评论收藏

06-24 17:23

已编辑

产品运营

发评论，赚牛币❗️牛客评论大赛正式启动😍

OK，牛友们，全体目光向我看齐！我宣布个事儿：👇👇👇【牛客2025暑期评论大赛】今天正式启动了喔～～～长话短说，就是发评论给牛币，具体规则一定往下看 👇👇👇 一、参与方式：  点击下方问卷星链接登记你的牛客昵称，即视为报名成功 报名地址：https://www.wjx.cn/vm/YWc20Xt.aspx# 活动周期：2025年06月25日0点-2025年07月24日24点二、发啥评论？（🧎跪着敲黑板）✨ 评论方向有用的：在求职、生活、学习等各种内容评论区，为牛友提供有价值的信息或建议，比如offer选择、踩坑经验等搞笑的：在评论区发挥咱们牛友特有的幽默、风趣和脑洞，引发别人的兴...

龙宫战记：不管谁在搞活动，只要给牛币，我多多少少都要来帮帮场子

点赞评论收藏

06-25 17:05

南京大学 Java

实习与准备秋招该如何平衡，直接带薪面试

去年情况分布提前批 (6月-8月)：许多互联网大厂和知名企业的秋招会提前开始，这个阶段招聘流程快，难度相对较大，去年提前批开的其实不是很多正式批 (8月-10月)：这是秋招的黄金时期，绝大多数企业都会在此期间开放网申，举办宣讲会和招聘会，暑期实习生有大量转正机会也集中在这个时期（去年转正较晚）开奖与补录阶段 (11月-次年1月)：去年集中在11月份开奖，然后12月到1月为补录，但岗位数量有限可见秋招的战线越来越长，很多企业在暑假就开始布局，这就导致了很多人还在实习，但秋招已经发笔试面试了笔试一般安排在周末或者晚上，可以不用太担心，下面情况集中讲面试，面试时间能调到晚上最好，但一般不太容易调如果你没有转正机会，无脑all in秋招如果你有转正机会，但对部门不太喜欢：1.激进一点，找个会议室/阿里电话亭 直接带上自己电脑开面 面完了再回工位2.老实一点，请假半天，但如果面试集中，一周请假好几次半天ld也会生气，然后你的钱还少如果你有转正机会，且对部门很满意：1.争取转正，首要是努力表现2.不要all in转正，适当投一些公司，不要过多投，并在转正答辩结束后离职全力搞秋招，尽量不要占用工作时间

投递阿里巴巴集团等公司10个岗位实习与准备秋招该如何平衡牛客创作赏金赛

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 选完offer后，你后悔学机械吗？ #

# 如果实习可以转正，你会不会放弃秋招 #

# 参加完秋招的机械人，还参加春招吗？ #

51086次浏览 553人参与

使用：hfd工具下载数据集

1.确认脚本功能与环境变量

2.构造下载命令

2.1（方法二）下载命令

在 PowerShell（已处于 D:\code\2025\6\26 目录下）中执行：

各参数详细说明

假设你想下载该数据集中的 distill_r1_110k.jsonl 文件（可根据实际要下载的文件名调整 ），在 PowerShell 处于 D:\code\2025\6\26 目录下时，执行：

各参数详细解释

3.执行下载并检验

全站热榜

创作者周榜

在 PowerShell（已处于 `D:\code\2025\6\26` 目录下）中执行：

假设你想下载该数据集中的 `distill_r1_110k.jsonl` 文件（可根据实际要下载的文件名调整），在 PowerShell 处于 `D:\code\2025\6\26` 目录下时，执行：