昨天 10:44 吉林农业大学算法工程师发布于河北

关注

带得科技大模型应用开发一面

1. 文章分类大概有多少文章？

文章量一般从三个口径说：

训练集、验证集、线上累计处理量。实际项目里常见是几万到几十万篇，线上累计处理量会更大。真正影响效果的不只是数量，还有类别是否均衡、长短文本分布是否正常。

2. 怎么做的这个分类？怎么实现的呀？

就是文本分类标准流程：

先做文本清洗，再做标签体系，再做编码表示，最后接分类模型输出结果。如果用的是 BERT，就是文本经过 tokenizer 编码，输入 BERT，取 [CLS] 或池化向量，接线性层做分类。单标签分类一般用 softmax，多标签分类一般用 sigmoid。

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")
text = "这是一篇待分类文章"

inputs = tokenizer(
    text,
    max_length=512,
    truncation=True,
    padding="max_length",
    return_tensors="pt"
)

3. 你这个用 BERT，是把整篇文章都放进去吗？还是怎么识别出来的？

不是所有文章都整篇放进去。因为 BERT 一般有最大长度限制，常见是 512 token 左右。

短文章可以直接截断后输入。长文章一般按段落、页或者滑窗切分，再分别做分类，最后聚合结果。也可以抽标题、摘要、关键词、前几段一起做分类。

def split_text(text, max_len=400, stride=200):
    chunks = []
    start = 0
    while start < len(text):
        chunks.append(text[start:start + max_len])
        if start + max_len >= len(text):
            break
        start += stride
    return chunks

4. 审批里的 word 文档分类可能不止一个维度，是多个维度的，这个自动分类应该怎么做？

这种一般按 多标签分类 或 层级分类 做。不是一个文档只分到一个类，而是一个文档可以同时命中多个标签。

实现上就是：

BERT 编码后输出多个标签分数，每个标签独立 sigmoid，超过阈值就打上该标签。如果标签有一级、二级关系，也可以先做一级，再细分二级。

import torch

logits = torch.tensor([[1.8, -0.2, 2.3]])
probs = torch.sigmoid(logits)
preds = (probs > 0.5).int()

print(probs)
print(preds)

5. 最夸张见过 5000 页的文档，怎么去分类？

5000 页不能整本直接喂模型。做法就是先解析文档，再切块，再块级分类，最后文档级聚合。

切块可以按：

章节、标题、页、段落、固定窗口。

每个块出一个分类结果，最后用投票、平均分、最大分或者加权聚合成整份文档结果。如果有目录、标题结构，优先按结构切，不要只按固定长度硬切。

from collections import Counter

chunk_preds = ["合同", "合同", "制度", "合同", "合同"]
fina

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点，内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线，提供高频题解析、标准答题思路与工程落地方法，帮助你高效查漏补缺.

全部评论

推荐最新楼层

03-11 18:28

电子科技大学后端工程师

快手容器云暑期一面

1.拷打之前的实习内容(半小时)2.问RAG/Agent相关概念(感觉面试官不太了解这一块，一直在听我解释)3.介绍skills如何调优4.k8s相关了解吗5.手撕leetcode62不同路径

查看5道真题和解析

点赞评论收藏

03-10 22:50

中南大学 Java

27届校招必看：后端&大模型应用开发突围指南

你好，27届的同学！现在是2026年3月，26届春招已进入白热化，27届的暑期实习预热也即将开始。作为站在AI浪潮风口的一代，你们面临的机遇与挑战并存：传统后端岗位在收缩，而“后端+AI”或纯“大模型应用开发”岗位需求激增。很多大厂（如字节、阿里、腾讯）的后端JD里已经明确标注“需具备大模型开发与应用能力”。如何在这个时代合理利用AI工具，打造核心竞争力？这份实战分享贴为你拆解。一、核心认知：AI时代，后端开发变了吗？变了，也没变。没变的是：高并发、分布式、数据库优化、系统设计等后端基石依然是面试和工作的硬通货。变了的是：你不再只是写CRUD，你需要懂得如何调用大模型API、构建RAG（检索增...

27届求职交流

点赞评论收藏

03-11 03:35

门头沟学院 Java

腾讯AI技术研究一面实习面经

被拷打麻了....1.R1复现方案，奖励函数为什么这么设置？有考虑过数据泄露的情况吗，就是如果你改的这些题目比较相似的话？有没有出现中英混答的情况？怎么解决？为什么你的最后结果没有突破到更高的分数？你说你用的Kimi K2和Gemini，是什么形式的？API还是网页？如果说不是输出你的奖励词语，也是可以做到推理的，你怎么考虑这个问题？2.手机助手项目拷打：介绍背景，怎么做的。如果我现在的场景是APP更新之后，点击的模块发生变化，你会怎么解决这个问题？如果是上下滑动找商品呢？3.GRPO如果组内设置的size非常小的话会怎么样？4.GRPO的平均是怎么计算的？5.场景题：如果让你来搭建一个LOL的陪玩助手，你会怎么搭建？可以从数据选择，整个架构设计来说。如果用户发现你的这个助手语气太生硬了，你怎样解决？如果版本更新，装备这些东西变了，你是训练到模型里面去的，模型需要重新训练吗？有没有什么解决办法？如果是LOL你在对线的时候，发生了小龙团，你怎么样让助手去做这种场景的一个提醒规划？6.有了解过MOE模型吗？7.讲下PPO8.MCP和Skill有了解吗？9.代码：先写打家劫舍，然后改进输出具体打劫了哪些

查看19道真题和解析

点赞评论收藏

昨天 10:48

吉林农业大学算法工程师

带得科技大模型应用开发二面

1. 你们线上大模型应用的整体架构是怎样的？常见架构就是这几层：用户请求先进入 API 网关，再到业务服务层。业务服务层负责鉴权、限流、Prompt 拼装、会话管理、工具编排。如果有知识库，就先走检索链路；如果要调外部能力，就走工具调用；最后把上下文交给大模型生成结果。生成结果出来后，再做内容过滤、格式化、日志落库、监控上报。核心链路一般是：用户请求 -> 业务编排 -> 检索/工具 -> 模型推理 -> 后处理 -> 返回结果2. 你们怎么做 Prompt 工程？Prompt 不是简单写一句提示词，而是模板化管理。常见做法是把 Prompt 拆成几部分：syst...

查看20道真题和解析

点赞评论收藏

昨天 16:48

已编辑

门头沟学院 C++

字节offer审批要多久

怕被横向或者审批挂 更新，已过

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 春招 / 实习投递，你最焦虑的一件事 #

40771次浏览 835人参与

# 今天你投了哪些公司？ #

90767次浏览 1758人参与

# 虽然0面试，但今天___，夸夸自己 #

# 如果给AI员工评绩效，我的答案是…… #

# AI时代下，你的岗位要求有什么变化？ #

# HR问：你期望的薪资是多少？如何回答 #

83625次浏览 717人参与

# 携程笔试 #

117938次浏览 730人参与

# 简历无回复，你会继续海投还是优化再投？ #

带得科技 大模型应用开发 一面

1. 文章分类大概有多少文章？

2. 怎么做的这个分类？怎么实现的呀？

3. 你这个用 BERT，是把整篇文章都放进去吗？还是怎么识别出来的？

4. 审批里的 word 文档分类可能不止一个维度，是多个维度的，这个自动分类应该怎么做？

5. 最夸张见过 5000 页的文档，怎么去分类？

全站热榜

创作者周榜

带得科技大模型应用开发一面