上来面试官就说这是一面,给我整懵了;反问的时候他解释金山的面试流程导致他们也不知道自己是几面面试官,只有行政那边知道。上来就是两三个场景题,都是和哈希表相关的,简化如下:1. 有一大堆重复int值,如何获知不同int的数量?哈希2. 内存消耗太大,怎么改进?位图3. 用位图需要提前分配足量内存,假如这些值很稀疏,那就会浪费大量内存,怎么改进?(*)4. 看你做过爬虫,那你会怎么考虑做网站去重?也就是爬过的url,不要再爬第二次。哈希5. 内存消耗太大,有其他思路吗?字典树6. 确实可以节省很多内存,还有其他思路吗?(*)7. 假如已经爬取好了大量文章,但这些文章可能出现重复或者类似(比如分别在a平台和b平台发布的同一篇文章,因为不同的审核机制,所以有所修改,但主体内容一致),如何做到去重,只统计不同文章的数量?(*)8. https怎么做到安全的?9. 你对设计模式怎么理解?10. 反问10.1 面试流程10.2 业务分配统招统分10.3 多久出结果今天上午就能反馈,但不确定行政那边的后续流程