海量数据处理面试题

未知陨落

已于 2024-12-08 21:16:44 修改

阅读量1.2k

点赞数 38

分类专栏：数据结构 C++ 算法文章标签：算法 c++ 哈希算法位图布隆过滤器散列表

于 2024-11-25 07:15:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/w200514/article/details/144007811

版权

C++ 同时被 3 个专栏收录

28 篇文章

订阅专栏

20 篇文章

订阅专栏

6 篇文章

订阅专栏

目录

一.位图应用

二.布隆过滤器

三.哈希切割

一.位图应用

1. 给定100亿个整数，设计算法找到只出现一次的整数？

对于这道题100亿个整数大概占用40G,1G=2^30byte,所以直接保存是不合适的,可以使用两个位图来处理,用00表示出现0次的,01表示出现一次的,10表示出现2次及以上的的

class solution
{
    public:
        void set(size t x)
        {
            if(bsl.test(x)==false && bs2.test(x)== false)//00
            {
                bsl.reset(x);
                bs2.set(x);// 01
            }
            else if(bsl.test(x)==false && bs2.test(x)== true) // 01
            {
                bsl. set(x);
                bs2.reset(x); // 10
            }
        }
    private:
        bitset _bs1;
        bitset _bs2;
};

这样就可以找出01的数,遍历所有整数,为01的就是出现一次的

2. 给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？

方案1:将其中一个文件1的整数映射到一个位图中，读取另外一个文件2中的整数，判断在不在位图，在就是交集。消耗500M内存

方案2:将文件1的整数映射到位图1中，将文件2的整数映射到位图2中，然后将两个位图中的数按位与。与之后为1的位就是交集。消耗内存1G

3. 位图应用变形：1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整数

这道题和1的思路是一样的,用两个位图处理,00表示出现一次的,01表示出现一次的,10表示出现两次的,11表示出现三次及以上的

二.布隆过滤器

1.给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件交集？分别给出精确算法和近似算法

query一般是sql查询语句或网络请求的url等,一般是一个字符串

100亿个query占用多少空间?假设一个query平均30-60byte,100亿个大概300-600G

近似算法:

将文件一的query映射到一个布隆过滤器,读取文件二的query,判断在不在布隆过滤器中

缺陷:交集中有些数不准确,由于布隆过滤器的误判.所以一些不是交集的数也可能存在

精确计算:

这两个文件在300-600G,没有合适的数据结构可以准确的找出交集,文件很大不能都放到内存中,所以我们可以把文件切成多个小文件,小文件数据加载到内存中

切成多少份:一般切出来的一个小文件的大小能够放进内存中即可,这里有300-600G,切为1000份,每份300-600M,有1G内存可以放下

如果是平均切分,那么A0可以放到内存中存储到一个set中,B0~B999小文件中的数据都需要和A0比较,以此类推,这样的优势是将部分数据放到内存中,不是暴力比较,A0的数据放到set中,效率高一些

如果不平均切分,可以使用哈希切分,i=hashstr(query)%1000,i是多少,query就进入第Ai,Bi的文件中,文件A和文件B都这样处理

这样的好处是:A和B中相同的query一定进入到编号相同的Ai和Bi小文件,所以下面只需要比较编号相同的找交集

2.如何扩展BloomFilter使得它支持删除元素的操作

将每个位标记成计数器

那么到底用几个位表示计数器?给的位如果少了,多个值映射一个位置就会导致计数器溢出.比如1byte最多计数到256,如果有260各值映射到一个位置,就会出问题,但是如果使用更多的位映射一个位置,空间消耗就大了,会影响布隆过滤器的优势——节省空间

三.哈希切割

给一个超过100G大小的log ﬁle, log中存着IP地址, 设计算法找到出现次数最多的IP地址？与上题条件相同，如何找到topK的IP？

首先这里需要做的是统计次数,我们一般用kv模型的map解决,但是这里的问题是有超过100G数据,放不到内存中

所以我们先创建1000个小文件A0~A999,读取IP计算出i=hashstr(IP)%1000,i是多少,IP就进入多少的小文件中,相同的IP一定在同一个小文件中

map<string,int> countMap,读取Ai中的IP统计出次数,一个读取完clear再读取下一个

使用一个pair<string,int> max记录出现次数最多的IP,就可以求出次数最多的IP地址

topK的问题我们需要创建堆解决

博客等级

码龄2年

60
原创

4121
点赞

2580
收藏

2022
粉丝

关注

私信

热门文章

分类专栏

C++ 28篇
Linux 8篇
数据结构 20篇
算法 6篇

展开全部收起

上一篇：: 位图和布隆过滤器

下一篇：: C++11特性(详解)

最新评论

Linux进程控制
攻城狮7号: 精彩好文，赞
Linux进程控制
liuyunluoxiao: 博主的文章质量一直很高，内容丰富，讲解得清晰易懂。博主的文章真的是知识的宝库，每次都有新的收获。每次阅读都能获益良多。期待博主的持续更新！
冯诺依曼系统及操作系统
打不了嗝: 文章内容丰富，涵盖了很多实用的知识点，对我来说非常有帮助。尤其是博主在文章中提供了很多实际操作的步骤和技巧，让我能够更好地应用所学的知识。非常感谢博主的分享，期待博主能够继续输出这样优质的好文。
Linux进程控制
23遇见: 此文堪称佳作！开篇引人入胜，迅速抓住读者眼球。内容丰富详实，观点独到深刻，论证条理清晰。无论是素材的运用还是逻辑的推进都恰到好处。语言简洁流畅且富有感染力，读罢让人深受启发。
Linux进程控制
waves浪游: Linux进程控制

最新文章

目录

展开全部

收起

评论 22

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。