首页 / 数据人的面试交流地
#

数据人的面试交流地

#
659965次浏览 10106人互动
虽然说每年秋招都很难,但今年真的是难破天际了!即时记录你的面试,跟其他小伙伴抱团交流吧~
此刻你想和大家分享什么
热门 最新
字节大数据开发(广告业务)
首先自我介绍,然后I.上来就是两道中等的sql题目:1.SELECT   CASE     WHEN name_count > 1 THEN CONCAT(d.name, s.name)    ELSE s.name  END AS display_nameFROM (  SELECT sp.*, COUNT(*) OVER (PARTITION BY sp.name) AS name_count  FROM student_profile sp) sJOIN department d ON s.department_id = d.id;唯一记录的一条sql,我感觉有小问题,但是感觉面试官很急。我想改他直接说赶紧下一个。为什么select里面用的别名不能直接用到同一个语句中,我回答sql执行顺序的问题,以及在hive中会报错,未找到相应的名字。他笑了,我的回答错了???whateverIII. 考了spark shuffle 的过程,非常的细节,怎么给partition分区?我的回答:spark.default.parallelism,通常等于集群的 CPU 核心数,默认值为 200。或者读取文件时指定分区数。然后这里他又笑了,内心os:这位大佬是微笑大使。IV. 他让我直接写ods 和 dwd 层建模的过程!这一考法我有点不理解要考什么,有木有大佬给我解答一下(感谢)。虽然我写了一部分,但是有的还是忘了。V. 考了我HTTP中reception的作用,不知道这里是不是我听错了,我说能再说一遍吗?他说没时间了,今天就这样吧。总结:自我介绍我太简略了?我想着他手上有我的简历,他好像对我的实习经历有点不感兴趣,因为他说我介绍的时候都是业务层面的?Interview time:One Hour中间还有一些,我就没写了。。。
查看5道真题和解析
点赞 评论 收藏
分享
作业帮+阅文笔试~数仓/数据开发
作业帮时间是随机的,今天下午测的。作业帮是10道选择题加2到算法题:选择题:考了数据结构排序二叉树,linux命令:awk '$NF' test 这里的test是一个有多行数据的文件,这命令是输出该文件末行的内容。还考了mapreduce优化数据倾斜的办法这里我好像选错了有两个选项一个是把count(distinct ) 替换为sum()group by 还有是将小文件先保存到内存中这两个好像是对的都可以优化数据倾斜此问题。还考了Flink的一些特性不过我还没学过flink,还考了kafka的高性能和低性能的一些问题,这我也是一脸懵。还考了六个盘的汉洛塔要移动几次才通过。然后是算法题,第一个是简单的二分查找,不过我只通过了94%,后面看估计是我对左右指针移动还是有点问题。第二个是leetcode32题,最长有效括号,可惜了我两个月前还写过但是还是没写对,只通过了63%。也不知道能不能过。阅文(寄了,以为是8.30考没想到是8.30结束结果只写了20分钟):这好像是前面是单选题,中间是不定项,后面是问答题单选题:考了hive内置函数,考了hive与spark的对比,hadoop节点默认备份是多少~(还考了斗破苍穹的主角是谁虽然我没看过印像中好像叫萧炎)不定项:有mysql中delete,drop和truncate这三者的区别特点(我对truncate完全没印象),还考了flink的一些知识。问答题:第一个是mapredce工作流程这个还好,第二个是如何解决spark数据倾斜的方法。这里时间不够了我一点没写,也没多少印象。这里我现在写一下加深点印象1.可以增加随机前缀或后缀:来打散数据分布,在后继计算中去除前后缀从而负载均衡2.广播小表,如果是原因是小表与大表join可以将小表广播到每个节点,避免产生数据倾斜。3.salting方法:为倾斜数据填加盐值,打散倾斜数据4.分区策略调整:通过自定义分区器或者合理选择内置分区器来均匀分布数据5.增大并行度:针对只有少量数据造成的倾斜任务,增加并行度可以更快地处理这些小任务6.数据预处理:合并一些小文件,fliter操作等第三四个就是写sql语句,第三个挺简单的就是第四题来不及看了。ok就是这些了,预祝大家都能找到自己想要的工作实现,我还是继续去沉淀去了,这一个月也不知道自己在忙些啥好像就是一直在刷算法题和sql题,八股都没怎么看,对组件的掌握还是太浅了。
查看14道真题和解析 投递阅文集团等公司6个岗位
点赞 评论 收藏
分享
2024-11-05 17:16
门头沟学院 C++
WPS金山C++一面凉经
1.C++有哪些特性,请使用一段代码演示这些性质。我写了一些经典的继承,子类中重写的父类的虚函数,然后用父类指针指向子类对象,去实现多态。但是写的时候有点脑子发昏,把所有成员全public了,被面试官点评为这违背了封装。2.写两个类,两个类分别有一个虚函数,然后有一些char和int类型,写一个子类去继承这两个类。3.问上述子类的大小?我考虑两个虚函数指针以及内存对齐之后,给出了正确的大小。然后被面试官套路了,问我有子类有两个虚函数指针吗?我说没有只有一个,然后把答案改错,我是个傻子。4.如何指针类外访问私有成员?一开始是问如何访问私有成员,我说可以使用友元函数。忘了面试官怎么说的,但是引导我用指针去思考。我没写出来。后面查了一下,可以把类的指针转用reinterpret_cast成对应的数据类型,然后考虑此前类内的内存分布后,给指针位移去找到对应的变量。5.一些常规C++八股,智能指针和移动语义。6.问智能指针对象本身是不是线程安全的。7.问我自己写的一行代码,代码内容是用new申请一块堆内存,问这是不是线程安全的。8.c++的STL八股。9.问map和vector在已知key和下标的查询复杂度。我回答都是O(1)。10.c++sort是怎么实现的?我回答:我说根据数据量大小选择快排,堆排。不知道有没有归并,我没查过。11.用快排实现查询第K大的数。这个我写出来了,但是差以为,因为小标是0开始的,所以我实现的版本是第0大的数字是大的,而不是第一大的数字。##
国棉17厂丶小王:sort是长度小于32选择插入排序。大于32选择快排,快排采用递归进行,如果递归栈的层数超过了1.5log n,那么就改用堆排,快排随机数的划分,40个以上采用九数取中,40个以下3数取中。(随机选择和递归深度msvc是这样的,其他stl不清楚),但是排序算法是这三个都一样的
查看11道真题和解析
点赞 评论 收藏
分享
04-01 18:56
南昌大学 Java
[4.1]团子测开暑期凉面(55min)
上来做自我介绍与项目介绍0八股,0手撕,0场景题,0智力题(老实说像kpi面)全程拷打项目(一个外卖项目,一个dp路由组件项目)1.项目背景(为什么要做这两个项目)2.项目架构是怎样的(客户端到服务端)3.负责实现的后端模块4.你项目中遇到的最大的困难是什么(这真想不到,答了个数据库中分表的方式在满足第三范式与实际业务效率之间不好权衡)5.追问:那你是如何权衡的,你又采用了什么具体方案?(答不了一点,答了个加冗余字段)6.那你项目中具体有哪些表?说一说7.那你刚才说的具体方案是如何具体实施在这些表上的?8.当用户下单之后,一直到下单成功,整个业务流程是怎么样的?9.那如果当业务中出现了问题,如何给用户退款?如何回滚业务?10.你这个项目既然是面相校内,那么体量应该很小,为什么要做这个dp路由组件?(从Sharding-JDBC、Apache ShardingSphere、Mycat等市面上已有的分库分表路由组件得来的灵感,想要提升自己)11.你这个路由组件具体是怎样实现的。(忘了)12.dp路由组件满足的业务需求(分库分表)13.你这个dp路由组件是如何储存数据源信息的?(数组,从HashMap得来的灵感)14.那具体是怎么哈希的。(Hash散列+)15.为什么采用hash散列而不是刚才你说的其他散列方法?(乘法散列,除法散列,斐波那契数列(没想到我连斐波那契这四个字都忘了))16.当遇到扩容需求时,你的具体扩容方案是什么?这里要保证数据一致性,那你怎么得到扩容后的每个库的hash值?(使用消息队列进行异步扩容,如果存储数组大小不够就按照与HashMap一样的模式扩容)17.那你具体是如何保证在扩容时旧库与新库的数据一致性(BinLog,RelayLog)18.你用过AI吗,你的项目中有使用AI吗?没使用的话,你能说出在你项目中如果使用AI可以实现怎样的功能吗?19.你了解LLM相关的大模型吗(答了个只知道名字)20.列举一下你知道的LLM相关的大模型框架(就说了个Agent,还不知道是不是)21.那你能说说你在平时写码时怎么使用的AI吗(列举了Cursor和Clause等写码能力强的AI模型,但是因为经济能力的原因只使用像DeepSeek这样的免费AI大模型进行模块化开发,因为AI对于复杂的业务处理能力不行,但只要能够将业务分成多个模块,那么AI对于一个个模块的代码的处理就十分的强大)还有几个问题我忘了.........反问:1.我是第一次面试,有什么可以提升的吗2.之后要是有第二次面试的话会如何通知我3.你们部门的业务是什么,最近怎么名厂都喜欢问两句AI(类似于腾讯云之类的这样的数据储存项目)(现在基本上大厂都会问,不论是什么岗,要是可以展现出对AI大模型的深入理解的很加分)4.我本来是投的JAVA后端研发的岗位,但不知道为什么转测开岗了,我测试开发的基础基本为0怎么办呢?    投的研发但是被测开捞了,想着有面就面了。但是最近一周由于忙之前的小厂实习以及学校方面的事又没怎么复习面经,算法之类的东西,结果全是项目拷打是没想到的。感觉这次团子的面真的想kpi面,感觉应该是没了......    明天还有高德的面试,话说笔试3道编程题0分都有的面吗?感觉又是个kpi面。
准备offer的考拉:是北京base吗?哪个部门呀
查看22道真题和解析
点赞 评论 收藏
分享
2024-01-16 13:18
吉林大学 Java
《腾讯》24校招Java后端一二面面经
一面👥面试题目1.问项目。2.https能否抵御重放攻击?3.List remove第一个元素之后后面的元素会移动吗?4.Hash map =new HashMap(50)这个过程中map进行了几次扩容?5.使cache命中率最高的算法是?6.无法保证每趟排序至少能将一个元素放到最终位置上的算法是?7.阻塞和非阻塞网络io有什么区别,分别有哪些应用场景?8.用浏览器打开一个网址的时候会用到哪些协议?9.应用程序的日志都要记录哪些内容?10.Springbean如何保持线程安全? 使用局部变量可以保证安全,为什么不用实例变量?11.父子类静态代码块和构造函数的先后执行顺序?12.请列举ip地址和mac地址的区别?13.如何让三个线程按照指定顺序执行?14.手撕:对字符串Hello world! 进行反转,要求用递归的方法。🤔面试感受难度上来了,题目问的比较灵活,会按照实际的使用情况来提问,手撕算法属于网开一面。二面👥面试题目1.拷打项目2.两个后端程序通过tcp进行数据传输,是否有可能有数据丢失?3.怎么创建一个线程池?4.设置缓存区大小为8,根据最近五分钟访问次数排序,替换次数最少的缓存属于哪种缓存算法?5.介绍一下spring的事务隔离级别?6.解释一下ioc和aop?7.Mysql联合索引(a,b,c)相当于创建了a b c三个索引对吗?8.什么是半双工通信?9.实现接口的方法对访问修饰符有什么要求?10.Spring cloud是如何实现高可用性的?11.Mysql中innodb的主键索引跟其他索引的区别?12.聚簇索引中两个字段,一个类型是int,一个类型是varchar,在聚簇索引的叶子节点存储的数据类型是什么?13.  Jvm判断如何判断对象是否存活?常见的gcroot有哪些?堆里面的对象可以作为gcroot吗?🤔面试感受因为项目部分问的比较多,所以时间不够用没出手撕。八股的问的部分难度不大,结合项目出的场景题不好答,需要对自己的项目足够的熟悉和了解。              
追忆似流水年华:老哥,这个该怎么回答啊,“聚簇索引中两个字段,一个类型是int,一个类型是varchar,在聚簇索引的叶子节点存储的数据类型是什么?”
投递腾讯等公司6个岗位
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客企业服务