大模型应用开发二面 1h 字节

面试很难,还是要多多练习,感觉自己说不明白业务逻辑
1.写一下attention公式(代码实现了下)
2.训练时为什么要mask,推理时也需要吗?两处有什么区别?推理时的sequencelength和训练时一样吗
3.transformer和传统seg2seg模型有什么区别?
4.计算attention时为什么要除以dk,这个dk的含义是?attention计算时还有哪些scale处理?
5.attention中softmax函数作用、公式、为什么有减去最值的处理?换个函数还能这样处理吗?
6.解释数值上溢、下溢问题
7.讲一下prompt书写的经验,如何判断prompt是否达标何改进prompt
8.讲一下SFT,会对哪部分计算loss?为什么?
9.讲一下deepspeed
10.训练用一个7b模型要占用多少显存?不同zero阶段能够节多少显存?
11.训练模型时用了几张卡,有遇到什么异常中断问题吗?
全部评论
应用问这么多原理吗
点赞 回复 分享
发布于 03-14 13:29 广东
感觉这不算应用开发吧?
点赞 回复 分享
发布于 03-13 19:46 北京

相关推荐

04-19 16:47
四川大学 Java
·凉经 总时长45min,手撕300.最长递增子序列1.你项目出于什么背景做的?是有关于你之前的实习经历吗?2.介绍一下你刚说的三大功能3.你是如何使用RAG的?4.这里使用RAG和你直接把文档丢给大模型然后搜索,这俩方法有什么区别?5.你提到的安全问题,那么使用RAG给大模型也会存在安全泄露问题,这个如何解决?6.大模型的滑动窗口和其他存储上下文的方法你知道哪些?7.GPT现在支持多长的上下文?(......)8.有些时候我们会处理几万甚至几十万的数据,这样的情况下,现在大模型是如何处理这样超长长度的上下文的?9.你在最近有没有遇到一些在技术上或者项目上比较困难的情况?如何解决的?10.错误码403是什么?404、401呢?5xx的是什么?11.除了java其他语言了解过多少呢?你用python写过代码吗?12.对比一下java和python语言的区别?答:1.首先明确了语言是工具,架构才是核心2.java更适合做web场景下的开发:讲了面向对象、一个是解释型语言一个是编译+解释(JVM内存管理、JTI和多线程那里)3.python适合爬虫大模型推理等场景4.python运行时报错,java编译器可以检查出大部分错误.......13.你刚刚说的内存管理和垃圾回收,python不能做吗?14.JVM内存模型分哪些区域?15.native 方法比如C++的代码是如何运行在JVM中的?(不会)16.内存溢出和内存泄漏?以及常见场景17.讲一下如何解决java多线程的并发安全问题?18.如果加锁会影响性能,这样怎么办?如何解决性能问题?公平换非公平?锁粒度?乐观CAS?读写分离? 这里我说了好几种优化的情况,不太明白面试官想问什么===========================================================手撕《300.最长递增子序列》没用动态规划,用别的方法做的...10分钟做出来了面试官看起来对手撕的方法不满意,反问,结束。第二天感谢信。
查看18道真题和解析
点赞 评论 收藏
分享
评论
1
13
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务