C4 是 Common Crawl 的网络爬虫语料库的一个巨大的、干净的版本。它基于 Common Crawl 数据集:https://commoncrawl.org。它用于训练 T5 文本到文本的 Transformer 模型。可以从 allennlp 以预处理的形式下载数据集。
全部评论
相关推荐
11-14 16:03
西北政法大学 新媒体运营 点赞 评论 收藏
分享
大肥妖:我本科面华为的时候说了个狼性文化直接被挂了,朋友跟我说这是骂华为的词,他们叫奋斗者文化 点赞 评论 收藏
分享
点赞 评论 收藏
分享
查看14道真题和解析
海康威视公司福利 1386人发布