FASPell论文复现记录

简介

最近在做FASPell的复现,遇到一些问题,做一个记录,此篇仅作FASPell README.md的补充。
FASPell是由爱奇艺出品的,针对ocr识别后的文本纠错模型,在SIGHAN15数据集上能够达到SOTA的效果。其论文发表在EMNLP上,代码在github当中开源。

原理

由于对论文及代码的细节还不是特别熟悉,所以难免有错漏,欢迎留言一起交流。
FASPell采用编码器解码器的方式,训练一个深度自动降噪编码器(DAE)和一个置信度-字音字形相似度解码器(CSD)进行纠错。其中,编码器的训练可以使用掩码语言模型BERT、XLNet、MASS等,BERT等语言模型的使用是为了避免平行语料不够时的过拟合问题。解码器则使用字音字形相似度帮助生成混淆集。文章有三个创新点,一是使用解码器解码的方式替代传统混淆集,解决混淆集不够灵活的缺点。二是使用IDS和CJK发音方法进行字音字形计算对候选集进行精准召回,三是针对纠错任务FINE-TUNE时设计的掩码策略。更多详细内容可以参照FASPell论文阅读记录

FINE-TUNE 语言模型

在对语言模型进行FINE-TUNE的时候主要有两点需要注意。

  1. 在做数据处理的时候使用作者提供的方法生成TFrecord而非GOOGLE REPO当中的方法。主要区别在于作者提供的方法对存在错误的句子和正确句子使用不同的掩码策略。
  2. FINE-TUNE时使用REPO当中run_pretrained.py文件进行。

模型训练

在模型训练过程当中也有两个问题需要注意。

  1. 训练前将plot.py当中第79行plt.show()注释掉,要不然图片当中不能画出图像。
  2. 训练后可以使用多条直线对曲线进行拟合。将蓝色的x和o尽量放到曲线下边儿。
  3. 在模型训练过程中round设置为1,预测过程中可更改选择结果最佳的round。
  4. 训练时可先对字形训练,将生成的图片剪切存放;再对字音进行训练,按照作者推荐的顺序生成图片会使后边生成的图片覆盖掉前边的图片。

图像处理

 对于曲线的获取,请参考FASPell论文中2.3 Confidence-Similarity Decoder部分。
 在通过图像进行曲线的获得时,笔者发现对于difference_1-rank_0_results.png图像的处理对precision和recall的影响比较大,在获得曲线时要适度调整。曲线越是偏右则获得的precision越大,但相应的recall会有所减小。这是由于曲线偏右误报会相应减少但同时正确的报错也会相应减少。训练更加精确的MLM则显得非常重要。下面展示了笔者自己训练的rank=0的字音模型图片。
pd1ro
 difference_1-rank_0_results.png右侧放大
图片说明

未明确参数

暂无

全部评论
您好!有關CSD訓練的部分,原作者有提供訓練的順序,因此我想詢問詳細是要執行哪段程式碼才能處理top_difference=True, 以及Setting the dump_candidates to a saving path will help you save the candidates這段,該如何生成candidates,以及dump_candidates檔案類別應該是什麼呢?
点赞 回复 分享
发布于 2022-09-26 02:45 台湾
您好,请问char_meta.txt文件是如何生成的?还有一个疑问,作者对于简体中文数据集ocr是没有进行微调的,您在实验中是如何处理的?
点赞 回复 分享
发布于 2020-04-30 17:04

相关推荐

不愿透露姓名的神秘牛友
2025-12-17 16:48
今天九点半到公司,我跟往常一样先扫了眼电脑,屁活儿没有。寻思着没事干,就去蹲了个厕所,回来摸出手机刷了会儿。结果老板刚好路过,拍了我一下说上班别玩手机,我吓得赶紧揣兜里。也就过了四十分钟吧,我的直属领导把我叫到小隔间,上来就给我一句:“你玩手机这事儿把老板惹毛了,说白了,你可以重新找工作了,等下 HR 会来跟你谈。” 我当时脑子直接宕机,一句话都没憋出来。后面 HR 找我谈话,直属领导也在旁边。HR 说我这毛病不是一次两次了,属于屡教不改,不光上班玩手机,还用公司电脑看论文、弄学校的事儿。我当时人都傻了,上班摸鱼是不对,可我都是闲得发慌的时候才摸啊!而且玩手机这事儿,从来没人跟我说过后果这么严重,更没人告诉我在公司学个习也算犯错!连一次口头提醒都没有,哪儿来的屡教不改啊?更让我膈应的是,昨天部门刚开了会,说四个实习生里留一个转正,让大家好好表现。结果今天我就因为玩手机被开了。但搞笑的是,开会前直属领导就把我叫去小会议室,明明白白告诉我:“转正这事儿你就别想了,你的学历达不到我们部门要求,当初招你进来也没打算给你这个机会。”合着我没入贵厂的眼是吧?可我都已经被排除在转正名单外了,摸个鱼至于直接把我开了吗?真的太离谱了!
rush$0522:转正名单没进,大概率本来就没打算留你
摸鱼被leader发现了...
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务