中原银行算法工程师面试之解答

Bert的模型架构讲一下?

BERT模型的全称是:BidirectionalEncoder Representations from Transformer,也就是说,Transformer是组成BERT的核心模块,而Attention机制又是Transformer中最关键的部分,因此,利用Attention机制构建Transformer模块,在此基础上,用多层Transformer组装BERT模型。

Attention机制主要涉及到三个概念:Query、Key和Value。在上面增强字的语义表示这个应用场景中,目标字及其上下文的字都有各自的原始Value,Attention机制将目标字作为Query、其上下文的各个字作为Key,并将Query与各个Key的相似性作为权重,把上下文各个字的Value融入目标字的原始Value中。该Attention机制也叫Self-Attention。

说一下机器学习和神经网络之间的模型之间的区别

1.数据依赖

随着数据量的增加,二者的表现有很大区别:

深度学习适合处理大数据,而数据量比较小的时候,用传统机器学习方法也许更合适。

2.硬件

深度学习十分地依赖于高端的硬件设施,深度学习都要求有GPU参与运算。相反,普通的机器学习对于硬件不太依赖。

3.特征工程

在机器学习方法中,几乎所有的特征都需要通过行业专家在确定,然后手工就特征进行编码。

然而深度学习算法试图自己从数据中学习特征。

4.模型大小

深度学习训练出来的模型参数可以达到几千亿,非常大。而机器学习模型很小,甚至有的算法本身就是模型,可执行文件很小。

5.运行时间

深度学习需要花大量的时间来训练,因为有太多的参数需要去学习。但是机器学习一般几秒钟最多几小时就可以训练好。

而运行时间机器学习更快,甚至几ms

6.可理解性

深度学习很多时候我们难以理解。至今无法用精准的数学模型来描述。

但是机器学习不一样,比如决策树算法,就可以明确地把规则给你列出来,每一个规则,每一个特征,你都可以理解。

如果模型过拟合了应该怎么处理?

以上答案均来自本人专栏:机器学习面试题汇总与解析(蒋豆芽面试题总结)

欢迎大家围观:https://blog.nowcoder.net/jiangwenbo

牛友面经解答 文章被收录于专栏

这个专栏专门用于为牛友解答面经,希望能帮助到大家。

全部评论

相关推荐

海康威视已挂,是非对错我已无心关心
DuangDuang...:复旦✌也挂???
投递海康威视等公司10个岗位
点赞 评论 收藏
分享
几个意思
Data_Seven:他笑话你 我忍不了 我去阿里了
点赞 评论 收藏
分享
也许是天气_:实习这块全是假大空像AI生成的,没有实际内容。要体现出难点、亮点、解决问题的过程
点赞 评论 收藏
分享
08-08 16:33
唐山学院 Java
职场水母:首先,简历太长,对于实习和应届找工作,hr一眼扫的是学历,技术看实习,你写的技术栈字太多了,尽量用一句话概括不用写那么详细,技术面的时候会问的,而且技术栈都会在实习或者项目里体现,你要做的是,把你的简历浓缩为一页,删除没用的东西,比如实践经历,自我评价,这些纯废话,没用,专业技能写的太离谱,你真的熟练掌握了吗,建议都写熟悉,找工作和写论文不一样,追求的是干练和实用,把实习经历和项目提前,把掌握的技术栈写到最后,然后去找实习,
点赞 评论 收藏
分享
评论
14
56
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务