年底了,打开备忘录准备写年终总结,光标闪了半天,愣是一个字没憋出来。不是没东西写,恰恰相反,太多了。写文、做自媒体、参加比赛、办活动、学大模型……日历上密密麻麻全是痕迹,手机相册里存满了各种活动的合影和奖状。可就是这么奇怪,明明做了这么多事儿,坐下来一盘点,心里却空落落的。那天晚上三点多,躺在床上睡不着,脑子里突然蹦出一个念头:我这一年,活得像不像一个强化学习的智能体?一、先聊聊什么是强化学习,用人话说别急着划走,我不打算讲什么马尔可夫决策过程,也不会贴代码。强化学习这东西,核心思路特别简单:一个小家伙(咱们叫它智能体),被丢进一个陌生环境里,它不知道该干嘛,只能瞎试。做对了一件事,环境给它一...