2023-11-03 10:15 门头沟学院 Java

关注

大语言模型问题求解

现在为什么大语言模型都是decoder-only。😭

全部评论

推荐最新楼层

门头沟学院深度学习

非要找个理由的话：decoder-only采用的是因果注意力机制，causal attention mask保证了attention score一定是满秩的，而bi-direction attention mask，也就是encoder里所用的不能保证满秩。显而易见，参数矩阵的秩和它的学习能力是相关的。所以decoder-only架构潜力更大，因此也需要更多的数据才训练，模型做大的时候，它的capability是随着尺寸变大有着一个稳定增长。实际情况：海量数据+更强的训练工程。

8 回复分享

发布于 2023-11-03 11:54 浙江

门头沟学院自然语言处理

推荐苏神博客 https://kexue.fm/archives/9529

2 回复分享

发布于 2023-11-05 11:30 天津

千斗五十铃

天津大学算法工程师

我的理解是因为对话系统理论上输入是无限长的，随着轮数增加输入会越来越长，不同轮数长度差距很大，encoder采用pad的方式不擅长做这种长度区间差异过大的问题，而且只有decoder情况下，预训练和sft只是数据上不同，训练上差别不大

1 回复分享

发布于 2023-11-03 11:48 天津

西安交通大学深度学习

m

点赞回复分享

发布于 2023-11-22 10:22 陕西

不愿透露姓名的神秘牛友

09-19 14:43

团队氛围能决定你是去上班还是去上坟

实习之后才知道团队氛围的重要性来了一周，从第三天就开始想离职……团子背景、薪资福利再怎么好，也不香了

码农索隆：确实，团队的氛围真的很影响心情，好的团队上班感觉轻松愉快，不好的团队，每天没事就整点幺蛾子

投递美团等公司10个岗位

点赞评论收藏

分享

09-20 19:31

门头沟学院 Java

一段中小厂实习，秋招能收获什么offer？

一段中小厂实习，秋招能收获什么offer？ “室友去了字节跳动，同学进了腾讯，而我只有一个不知名中小公司的实习offer...这秋招还有戏吗？” 这是无数计算机专业学子在暑假前的真实焦虑。在“唯大厂论”的喧嚣中，一段中小厂的实习经历似乎黯然失色。 而大多数人在秋招前最多只有一段中小厂实习，双非+中小厂实习的秋招应该定位在哪个区间？应该怎么去努力？收获多少个offer算合理？ 破除误区——中小厂实习，不是简历污点 首先要彻底扭转一个观念：HR和面试官看的不是你的实习公司，而是你的实习内容。 与大厂实习生可能只负责一颗“螺丝钉”的工作不同，中小厂实习往往意味着以下几点。  更全面的技术视野： 你可...

mengnankk：接好运

小厂实习有必要去吗

点赞评论收藏

分享

08-27 12:02

已编辑

南京外国语学校网络安全

华子进池成功！！

期待开奖捏😁😁

再来一遍：实则劝各位不要all in华子，不要相信华为hr

点赞评论收藏

分享

08-27 20:12

江西财经大学测试开发

后悔接字节offer了

第一天入职，后悔没有早点来😍入职就发m4，配4k显示器，送办公大礼包业务基本纯开不测，做的项目也非常有挑战性麻烦包三餐，食堂非常顶，有一种回大学的错觉😭同事也特别好，第一天一起吃中晚饭聊的特别来，ld也比较年轻好沟通。

钝角p：干几个10点下班就老实了

投递字节跳动等公司10个岗位

点赞评论收藏

分享

09-19 17:21

已编辑

门头沟学院管理培训生

小红书实习实录

小红书一直是我的梦企，大家都在说它是经济上行期公司（确实，社区赛道它确实很亮眼）但是来了之后滤镜还是碎了我只能说我不合适。1.薪资待遇（实习）产品是260/天，运营/行政基本上都是150/天，技术300/天往上（+公司订餐/50元餐补）2.工作时间每天10:00-7:00或10:30-7:30看起来挺香，但是我有一次准点走第二天被mt找了，说我走的太早，之后我也不敢准点了。虽然中午有两个小时的吃饭和休息时间，但因为工作量太大，我们组的实习生基本是全员中午、晚上加班的状态，晚上9点回到学校也是常有的事。我的体感是工作很饱和，每一分钟都在忙，实习生因为工作量太大提前离职也是比较常见的事，有一个同学...

小红书公司福利 882人发布

点赞评论收藏

分享

评论

7

18

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 入职跑路最快的一次经历 #

16712次浏览 107人参与

# ___岗狗都不干，我干！ #

7572次浏览 78人参与

# 携程求职进展汇总 #

603782次浏览 4468人参与

# 拿到offer之后，可以做些什么 #

15140次浏览 127人参与

# 面试时间长是好事吗？ #

45191次浏览 341人参与

# 校招谈薪技巧 #

28514次浏览 429人参与

# 乐堡互娱校招 #

15073次浏览 185人参与

# 硬件开发岗知多少 #

14770次浏览 121人参与

# 国企秋招，你投了吗？ #

5725次浏览 58人参与

# 你在职场中沾染到的“坏”习惯 #

5410次浏览 67人参与

# 如何看待应届生身份？ #

164040次浏览 1850人参与

# 提名点击就挂的公司 #

43261次浏览 219人参与

# 材料人的华为红黑体验 #

31193次浏览 178人参与

# 小米编程考试 #

4799次浏览 83人参与

# 华为工作体验 #

226739次浏览 1273人参与

# 面试被问第一学历差时该怎么回答 #

181861次浏览 1423人参与

# 中兴工作体验 #

34256次浏览 298人参与

# TCL华星光电工作体验 #

6279次浏览 20人参与

# 如果你有一天可以担任公司的CEO，你会做哪三件事？ #

36364次浏览 496人参与

# HR问：你期望的薪资是多少？如何回答 #

58785次浏览 617人参与

# 腾讯工作体验 #

507152次浏览 3545人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务