1.如何评估 AI聊天产品的好坏?-你会用哪些指标去衡量 AI对话体验?-目前市面上的 AI聊天产品,你觉得谁做得最好?2.如何搭建 AI评测体系?评测集的选择和构造,评测指标的计算评测数据如果和预期不符,你会怎么优化?3.你有 PE 的经验吗?如果用 PE 构造的数据效果不理想,你会怎么调整?4.假设大模型返回的搜索结果相关性下降你会怎么分析?这个问题可能出在哪些环节?5.标注团队的数据质量不稳定,但对方不认可你的评估标准,怎么沟通?你会如何让对方接受你的判断标准?6.除了技术本身,你觉得哪些因素决定了 AI产品的成功AI产品是不是只要有研发就够了?7.如何评价豆包 AI?如果让你来优化,你最想改进什么?你觉得豆包在 AI赛道上的优势和短板是什么?