首页 / 研究生
#

研究生

#
149427次浏览 1242人互动
此刻你想和大家分享什么
热门 最新
拿下第一份大模型实习时间线
bg:双9,2024级硕,传统工科专业,算法知识范围仅限知道一些机器学习理论,了解基本的pytorch语法,打算砖码算法岗位,计划研1下找一段实习,从今年3月初已经开始在各大平台搜索实习经验了。转码时间线:2.28开始有实习想法,但是在岗位上纠结,在后端,大模型岗位纠结。最终决定大模型岗3.1-3.7吴恩达机器学习3.8-3.21李沐深度学习3.22开始刷leedcode3.24开始做简历3.24-3.25在github上跑开源项目:BERT部署+文本分类3.25-4.1在github上跑开源项目:ChatGLM-6B部署+LLaMA-Factory微调+Prompt模板3.27注册BOSS直聘3.28参加了第一场初创公司大模型的面试,感觉面试还可以,基本上能hold住但最后也都无疾而终了,盲猜可能是技术栈不太相符以及觉着我是低年级。3.29-4.5在github上跑开源项目:Llama3-8B+RAG4.7收到三家公司面试4.7下午面试一家中厂,问题太工程,而我是凑开源项目+偏算法理论性的科研,完全经不住拷打。4.8收到第一个offer,岗位感觉偏大模型调研,拒绝。4.10收到第二个offer,离学校路程半小时+大模型核心岗,但小厂,接收。回归整个实习准备,对我个人而言其实最难的是不断细化调整方向,以及在面试pass被无数次的心态调整,但总体来说是看着自己一步步的进步。记得第一次修改简历时,我对着空白文档发呆了两个小时,如今却能快速抓住岗位JD的关键词进行精准匹配;曾经在群面中紧张到声音发抖,现在面对压力面试已经能从容展现逻辑思维。
大模型海文:项目地址可以开源给大家 后台T一下
点赞 评论 收藏
分享
【面试必备】大模型经典面试题+详细答案:背八股文才是王道,不然你面试撑不过五分钟
最近春招正在如火如荼地进行中,看到很多人的简历上都包含大模型相关的工作,各家大厂和初创都很舍得给钱,动辄百万年包也变得不再稀奇。因此在大模型纵横的这个时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。本文汇总了107道大模型算法岗常见的面试题(含答案),内容如下:一、基础篇1、目前主流的开源模型体系有哪些?Transformer体系:由Google提出的Transformer 模型及其变体,如BERT、GPT 等。PyTorch Lightning:一个基于PyTorch的轻量级深度学习框架,用于快速原型设计和实验。TensorFlow Model Garden:TensorFlow官方提供的一系列预训练模型和模型架构。Hugging Face Transformers:一个流行的开源库,提供了大量预训练模型和工具,用于NLP 任务。2、prefix LM 和 causal LM 区别是什么?prefix LM (前缀语言模型):在输入序列的开头添加一个可学习的任务相关的前缀,然后使用这个前缀和输入序列一起生成输出。这种方法可以引导模型生成适应特定任务的输出。causal LM (因果语言模型):也称为自回归语言模型,它根据之前生成的 token 预测下一个token。在生成文本时,模型只能根据已经生成的部分生成后续部分,不能访问未来的信息。3、涌现能力是啥原因?涌现能力 (Emergent Ability) 是指模型在训练过程中突然表现出的新的、之前未曾预料到的能力。这种现象通常发生在大型模型中,原因是大型模型具有更高的表示能力和更多的参数,可以更好地捕捉数据中的模式和关联。随着模型规模的增加,它们能够自动学习到更复杂、更抽象的概念和规律,从而展现出涌现能力。4、大模型LLM的架构介绍?大模型LLM(Large Language Models) 通常采用基于Transformer的架构。Transformer模型由多个编码器或解码器层组成,每个层包含多头自注意力机制和前馈神经网络。这些层可以并行处理输入序列中的所有位置,捕获长距离依赖关系。大模型通常具有数十亿甚至数千亿个参数,可以处理大量的文本数据,并在各种NLP任务中表现出色。前馈神经网络 (Feedforward Neural Network) 是一种最基础的神经网络类型,它的信息流动是单向的,从输入层经过一个或多个隐藏层,最终到达输出层。在前馈神经网络中,神经元之间的连接不会形成闭环,这意味着信号在前向传播过程中不会回溯。前馈神经网络的基本组成单元是神经元,每个神经元都会对输入信号进行加权求和,然后通过一个激活函数产生输出。激活函数通常是非线性的,它决定了神经元的输出是否应该被激活,从而允许网络学习复杂和非线性的函数。前馈神经网络在模式识别、函数逼近、分类、回归等多个领域都有应用。例如,在图像识别任务中,网络的输入层节点可能对应于图像的像素值,而输出层节点可能代表不同类别的概率分布。训练前馈神经网络通常涉及反向传播 (Backpropagation) 算法,这是一种有效的学习算法,通过计算输出层的误差,并将这些误差信号沿网络反向传播,以调整连接权重。通过多次迭代这个过程,网络可以逐渐学习如何减少输出误差,从而实现对输入数据的正确分类或回归。在设计和训练前馈神经网络时,需要考虑多个因素,包括网络的层数、每层的神经元数目、激活函数的选择、学习速率、正则化策略等,这些都对网络的性能有重要影响。5、目前比较受欢迎的开源大模型有哪些?GPT系列:由OpenAl开发的生成式预训练模型,如 GPT-3。BERT系列:由Google开发的转换式预训练模型,如BERT、RoBERTa等。T5系列:由Google开发的基于Transformer的编码器-解码器模型,如T5、mT5等。6、目前大模型模型结构都有哪些?Transformer:基于自注意力机制的模型,包括编码器、解码器和编码器-解码器结构。GPT系列:基于自注意力机制的生成式预训练模型,采用解码器结构。BERT系列:基于自注意力机制的转换式预训练模型,采用编码器结构。T5系列:基于Transformer的编码器-解码器模型。7、prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点?prefix LM:通过在输入序列前添加可学习的任务相关前缀,引导模型生成适应特定任务的输 出。优点是可以减少对预训练模型参数的修改,降低过拟合风险;缺点是可能受到前缀表示长度的限制,无法充分捕捉任务相关的信息。causal LM:根据之前生成的 token预测下一个 token, 可以生成连贯的文本。优点是可以生成灵 活的文本,适应各种生成任务;缺点是无法访问未来的信息,可能生成不一致或有误的内容。encoder-decoder:由编码器和解码器组成,编码器将输入序列编码为固定长度的向量,解码器 根据编码器的输出生成输出序列。优点是可以处理输入和输出序列不同长度的任务,如机器翻译;缺点是模型结构较为复杂,训练和推理计算量较大。8、模型幻觉是什么?业内解决方案是什么?模型幻觉是指模型在生成文本时产生的不准确、无关或虚构的信息。这通常发生在模型在缺乏足够信息的情况下进行推理或生成时。业内的解决方案包括:使用更多的数据和更高质量的训练数据来提高模型的泛化和准确性。引入外部知识源,如知识库或事实检查工具,以提供额外的信息和支持。强化模型的推理能力和逻辑推理,使其能够更好地处理复杂问题和避免幻觉。9、大模型的Tokenizer的实现方法及原理?大模型的Tokenizer通常使用字节对编码 (Byte-Pair Encoding,BPE) 算法。BPE算法通过迭代地将最频繁出现的字节对合并成新的符号,来构建一个词汇表。在训练过程中,模型会学习这些符号的嵌入表示。Tokenizer将输入文本分割成符号序列,然后将其转换为模型可以处理的数字表示。这种方法可以有效地处理大量文本数据,并减少词汇表的规模。10、ChatGLM3的词表实现方法?ChatGLM3 使用了一种改进的词表实现方法。它首先使用字节对编码 (BPE) 算法构建一个基本的词表,然后在训练过程中通过不断更新词表来引入新的词汇。具体来说,ChatGLM3 在训练 过程中会根据输入数据动态地合并出现频率较高的字节对,从而形成新的词汇。这样可以有效地处理大量文本数据,并减少词汇表的规模。同时,ChatGLM3 还使用了一种特殊的词表分割方法,将词表分为多个片段,并在训练过程中逐步更新这些片段,以提高模型的泛化能力和适应性。11、GPT3、LLAMA、ChatGLM 的 Layer Normalization 的区别是什么?各自的优缺点是什么?GPT3:采用了Post-Layer Normalization (后标准化)的结构,即先进行自注意力或前馈神经网络的计算,然后进行Layer Normalization。这种结构有助于稳定训练过程,提高模型性能。LLAMA:采用了Pre-Layer Normalization (前标准化)的结构,即先进行Layer Normalization,然后进行自注意力或前馈神经网络的计算。这种结构有助于提高模型的泛化能力和鲁棒性。ChatGLM:采用了Post-Layer Normalization的结构,类似于GPT3。这种结构可以提高模型的性能和稳定性。
大模型海文:所有面试题可以开源给大家 后台T一下
点赞 评论 收藏
分享
点赞 评论 收藏
分享
25年大模型(LLMS)面试必问,背完通过率99%
点赞 评论 收藏
分享
04-28 21:29
今年这大模型面试真的难!!!面了10家过了2家
点赞 评论 收藏
分享
头像
2023-10-14 19:15
门头沟学院 C++
研究生三年白过了
秋招基本告一段落,前边投的基本都面完了,后面也不想再面了,意向公司虽然还没谈薪但是基本也就这家了,女朋友也已经签了合适的公司,接下来就等着谈薪,薪资满意不满意的也就这样了。突然闲下来有种不知道自己要干什么的空虚感,从上半年三月份准备实习开始,已有半年的时间逐渐剥离最后基本不再管实验室的事情,这闲下来突然不知道要去实验室做什么,可想玩又不知道该玩啥,就是感觉无聊又孤单。一个人吃完晚饭来广场逛逛,坐在花坛边看着人来人往,看着大家的生活,突然觉得自己的研究生生涯真的是最最最失败的一段生活,前天华子面试官还问,你这奖项挺多但怎么都是本科的呢,我也想知道,这研究生到底带给了我什么,到底读了些什么。本科的时候虽然成绩不算最好的那波,到最后也拿到了保研的资格,奖学金每年也都拿点,参加比赛也拿了不少奖,无聊了随时都能有能玩到一起的朋友陪我出去吃饭出去玩,感觉生活过的充实又快乐。研究生这实验室其实我从大四就开始每天来了,来这里已经有三年多了,现在要毕业了可以说要成绩没成绩,要成果没成果,现在想找个朋友出来玩也不知道该找谁,就觉得自己以前从来没有自己的生活,全都被实验室的项目占满,现在看着小孩子们在这边玩闹,有一种恍如隔世的感觉,这三年可以说一直没有好好过自己的生活,以至于现在有时间都不知道该怎么好好去过,真是悲哀。突然就想要把这些感觉写下来,祝大家都有美好的前程,找到满意的工作,如果有类似的朋友们,希望大家都能顺利的不带一丝丝留恋的离开现在这个鬼地方    
offer多多的咸鱼很糊涂:有女朋友就赢了大部分兄弟了
点赞 评论 收藏
分享
2024-06-01 10:47
已编辑
门头沟学院 后端
80%研究生都是92的
投票
程序员小白条:有没有这样一种可能,92的硕士大概率是上进的,而且信息检索能力比较强,所以根据投票根本看不出来....网上投票92比双非多都有可能,你要越底层的人现在在干啥,而且他们可能并不会投票...,知道真数据,假数据都无所谓,关键在于自己是怎么样个能力
点赞 评论 收藏
分享
字节跳动大模型算法岗面试真题,感觉也不难
点赞 评论 收藏
分享
2024-10-14 12:11
门头沟学院 C++
读研的崩溃时刻
俗话说天上一天,人间十年,现在我对这句话有了进一步的理解,那就是在学校一天=寿命减十天。研究方向是纯理论的(TCS),先不说文章很难出来,就算中了文章对找工作也是0帮助,甚至有些企业会认为研究成果过于理论化而对你减分。这个方向的科研界和工业界完全脱离,就算读到博士也只能去卷教职。明年6月就要毕业了,小论文最近才投了一个CCFB会议 ,中不中另说,后续返修还要投入大量时间,专利(保毕业)还要写、改、申,中文版大论文还停留在研二开题的状态。回顾研究生生涯,从大四下学期进组学习,直到论文产出,大约是两年半的时间,这两年半都被锁在实验室(工作日打卡有严格要求,两天不打会被约谈),期间挨骂(科研进度或缺打卡)、被pua的次数数不胜数,直接导致了我从e人成为了i人,不爱说话、脱发严重、体态变差、心理素质变差等等并发因素接踵而至,也完全丧失了两年前对科研的热情、信心,看透了学术界的藏污纳垢。再说秋招,从八月份紧赶慢赶做简历、写项目、投简历、刷题,到现在累计投递约300家了,面试的次数是个位数,而且没有一个是真心想招我的,全都是问点八股没有手撕,20分钟结束就没下文的那种。现在论文投了想出去实习,老板也不放人,说要我带师弟继续做,榨干最后一点剩余价值。所以读研对人来说收获了什么呢?如果能够重来,我宁愿去送外卖(没有瞧不起送外卖的意思)也不愿再选择读这个B书。        
希望奇迹发生的杰克很友好:哥们儿,我是一直干横向,科研进度没有,现在是一手抓科研一手抓毕业一手抓就业,人都要疯了
点赞 评论 收藏
分享
🔥【美团2025大模型北斗实习|内推码直通车】QRLTQJ5🔥 顶级薪酬+顶会论文+大佬带飞,速来!
投递美团等公司6个岗位
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客企业服务