字节面试

三面之后一般多久约面啊,中午面的,就问了30分钟有点慌,无手撕
全部评论
佬三面都问了啥 难度有前两面高不
点赞 回复 分享
发布于 2024-08-26 18:29 福建
佬,hr有跟你说大概多久出吗
点赞 回复 分享
发布于 2024-08-22 23:10 陕西
有结果了嘛佬
点赞 回复 分享
发布于 2024-08-21 20:32 浙江
出了吗兄弟
点赞 回复 分享
发布于 2024-08-19 11:56 上海
我就两个小时出的
点赞 回复 分享
发布于 2024-08-17 10:02 上海
有笔试吗
点赞 回复 分享
发布于 2024-08-16 06:33 浙江
直接联系hr问呀
点赞 回复 分享
发布于 2024-08-15 17:13 陕西

相关推荐

11-06 05:47
已编辑
Columbia University 算法工程师
最长公共子序列 求序列?中间endpos作用?是否一定包含在最终序列中?(没跑通,时间不够寄了)复盘:没睡醒没想起来该用backtrack来恢复序列,写的方法错了。rand5实现rand10?期望次数?有优化空间吗?(最后一个没答上来)后续复盘:之前我答的rand5(), 若1,3则 += 0, 2,4 += 0,5重骰,这种方式无法优化但对于rand5() * rand5(),若<= 20则直接%,反之重骰,这种方式有优化空间:落在21-25不重骰,直接复用作为另一个rand5Logistic regression?为什么用CE不用MSE?(先说了极大似然估计,追问还有吗,讲了数值稳定性并加上了sigmoid函数后两者梯度的公式推导)二分类指标?解释一下AUROC?实现中怎么做?(acc --> recall, precision, F1 --> AP & AUROC; 写TPR FPR公式 ;离散化,给定若干个threshold,记录点,然后处理成类似柱状图的计算方式)模型训练出现NaN或者loss不下降的情况?简历项目拷打,讲的强化学习介绍一下强化学习的这些策略?DQN -- > PG --> AC --> A2C,没来得及讲PPO,追问Q和V的关系问GRPO的具体reward?(大致按照自己理解讲了一下怎么从PPO来的,核心在同个state做出不同动作多次采样,归一化训练),训练时间与PPO相比?(其实不是太清楚,从策略空间分析了一下,单次epochGRPO更慢,因为多次采样,达到相同效果需要时间更少,因为当策略空间很大时,PPO需要更多采样次数才能达到与GRPO相同的效果,即多次到达同一个state 选择不同action)训练过程除了你讲的多次采样还有区别吗(没答上来)Update: 没想到过了,感谢面试官捞人!
查看11道真题和解析
点赞 评论 收藏
分享
10-30 01:34
门头沟学院 Java
点赞 评论 收藏
分享
评论
3
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务