老哥回答出来多少啊

相关推荐

# 集群调度策略模块设计和模拟## 题目目标设计并实现一个集群调度器(Scheduler)+ 模拟器,用于在动态负载和故障条件下平衡:- 高优作业低延迟- 集群利用率- 普通作业公平性## 场景设定- 集群包含 `M` 台同质机器(Machine `0 ~ M-1`)- 作业属性:`job_id`、`priority`、`resource_num`、`estimated_time`- `estimated_time` 与真实时长存在误差(约 ±20%)作业类型:- 普通作业(normal):每天 08:00 批量提交- 高优作业(high):全天随机提交,要求快速响应## 运行规则(必做)1. 调度与资源占用- 作业需绑定到足够空闲机器后才能运行- 运行期间机器被独占2. 作业完成与失败- 作业可能成功或失败- 若失败原因是硬件故障:相关机器下线维修 24 小时3. 抢占机制- 允许抢占运行中的作业- 被抢占作业回队列等待重试,额外增加约 10 分钟执行成本## 输出与指标要求(必做)调度器应输出可复盘日志,并至少统计:- 高优作业平均等待时长 / P95 等待时长- 集群利用率(时间窗内)- 普通作业公平性指标(如最长等待、等待方差、饥饿作业数)## 测试与验收要求(必做)至少完成以下测试:1. 基线对比(与至少 1 个基线策略对比(如 FIFO / 纯优先级))2. 波峰场景(批量普通作业 + 高频高优插队)3. 故障场景4. 抢占场景5. 结果可复现## 交付物- 调度器源码- 模拟器源码与输入样例- 策略说明(为何这样设计)- 指标报告与对比图表- 已知问题与下一步优化## 加分项- 自适应策略(根据实时拥塞/故障率动态调参)- 抢占成本建模更精细- 多目标优化或可插拔策略框架
点赞 评论 收藏
分享
一、项目深挖从实习经历里挑一个最能体现技术能力、最有挑战的项目详细聊聊。这个功能整体研发大概多少人参与?在这个项目里压力最大、最棘手的事情是什么?你做了哪些重要的设计决策,这些决策带来了什么效果?更新数据库状态和推送不是原子操作,你当时是怎么权衡的?想保证这两个异步操作绝对一致性,有什么办法?延伸场景:先写数据库 A 再写数据库 B,要求同时成功 / 同时失败,怎么设计?项目用户量、QPS 大概多少?有出现客户投诉吗?功能上线后怎么验证、保证系统稳定?出现异常需要线上应急吗?你设置了哪些告警指标?从现在视角看,你会设置哪些指标观测系统稳定性?二、Full GC 问题排查介绍下当时遇到的 Full GC 问题,以及完整排查过程。三、AI & Web Coding 相关如果用 Web Coding 写这个系统,你会怎么设计提示词?AI 生成代码不可控,你怎么约束、确保符合预期?有没有试过用 Web Coding 写项目,过程中最大问题是什么?业界怎么解决 AI 思考慢、反复出错的问题?有没有考虑用 AI 做测试用例提效,做 TDD 开发?如果设计一个 AI 研发 + 测试的协作 team,怎么设计?研发 Agent 和测试 Agent 之间怎么交互,避免越改越偏?大模型上下文有限,Claude 类产品怎么保证长代码迭代不丢失注意力?四、职业规划 & 行业选择工作之后的职业规划是怎样的?想从事什么行业 / 业务场景,为什么?了解蚂蚁国际是做什么的吗,为什么投这个岗位?五、算法 & 限流(核心编程题)手撕实现滑动窗口限流(1 分钟级别)。单机限流会有什么问题?多线程场景下,单机限流是否还有效?扩展为集群全局限流,怎么调整逻辑?用 Redis 做全局限流,会选用哪种方案?
查看30道真题和解析
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务