面试题——内外大小循环耗时的底层分析


经常遇到这样的面试题:比较
for (i = 0; i < A; i++)
{
	for (j = 0; j < B; j++)
	{
	        /////
	}
}
for (i = 0; i < B; i++)
{
	for (j = 0; j < A; j++)
	{
	        /////	
	}
}
两段代码哪一个耗时更少(假设A>>B)? 网上没有这类问题的底层分析,仔细思考之后打算写一篇博客,所用代码在gcc下测试。

首先定义两个数组用于程序测试:
#define A 1000000
#define B 200
int p[A][B],q[A][B];
定义大循环在外面,小循环在里面的测试代码,让数组p实现加一功能:
void demo1()
{
        int i,j;
	for (i = 0; i < A; i++)
	{
		for (j = 0; j < B; j++)
		{
			p[i][j]++;
		}

	}
}
定义大循环在里面,小循环在外面的测试代码,让数组q实现加一功能:
void demo2()
{
        int i,j;
	for (j = 0; j < B; j++)
	{
		for (i = 0; i < A; i++)
		{
			q[i][j]++;
		}

	}
}
比较demo1和demo2的耗时,计时程序如下,形参是函数指针:
void shijian(void(*func)())
{
	time_t start, end;
	time(&start);
	func();
	time(&end);
	printf("%fs  ", difftime(end, start));
}
为了保证程序的准确性,计时比较10次:
 for (i = 0; i < 10; i++)
{
	    shijian(&demo1);
            shijian(&demo2);
            printf("\n");
}
运行结果见下图:


结果还是比较明显的,大循环在外面,小循环在里面的速度远远快于 大循环在里面,小循环在外面的速度,原因分析见下。

计算机的存储层次结构见下图:



CPU访存时,会先访问Cache,如果访问Cache失效,Cache中没有要读取的数据,就到内存中查找所需数据,再传送给Cache,CPU再读Cache,如果内存中也没有,继续到外存中寻找。因为 CPU访问Cache速度 > CPU 访问内存速度 >> CPU 访问外存速度,当程序运行时,缓存命中率越高,所用时间就越少,缓存失效次数越多,所用时间越多。为了分析方便,假设Cache容量大小为16B,内存分块大小为16B,采用全相联映像。

数组p,q在内存中的存储情况:



分析demo1的Cache失效次数:

当第一次执行循环,CPU读取p[0][0]的时候,此时Cache为空,访问缓存失效,需要将一个内存块拷贝到Cache中,拷贝后Cache中的数据分布为:



当第二次执行循环体,CPU读取p[0][1],p[0][1]已经在缓存中,缓存命中;
当第三次执行循环体,CPU读取p[0][2],p[0][2]已经在缓存中,缓存命中;
当第四次执行循环体,CPU读取p[0][3],p[0][3]已经在缓存中,缓存命中;
当第五次执行循环体,CPU读取p[0][4],p[0][4]不在缓存中,访问缓存失效,此时继续将一个内存块拷贝到Cache中,覆盖原先数据:



当第六次执行循环体,CPU读取p[0][5],p[0][5]已经在缓存中,缓存命中;
当第七次执行循环体,CPU读取p[0][6],p[0][6]已经在缓存中,缓存命中;
当第八次执行循环体,CPU读取p[0][7],p[0][7]已经在缓存中,缓存命中;
当第九次执行循环体,CPU读取p[0][8],p[0][8]不在缓存中,访问缓存失效,此时继续将一个内存块拷贝到Cache中,覆盖原先数据。
.........
........
当i=0的时候,内循环共执行200次,其中缓存命中150次,缓存失效50次;
当i=1的时候,内循环共执行200次,其中缓存命中150次,缓存失效50次;
当i=i的时候,内循环共执行200次,其中缓存命中150次,缓存失效50次;
当i=999999的时候,内循环共执行200次,其中缓存命中150次,缓存失效50次;

所以,对于demo1,缓存命中次数为 150*A,缓存失效次数为 50*A,缓存命中率为75%。



分析demo2的Cache失效次数:

当第一次执行循环,CPU读取q[0][0]的时候,此时Cache为空,访问缓存失效,要将一个内存块拷贝到Cache中:



当第二次执行循环,CPU读取q[1][0]的时候,q[1][0]并不在Cache中,访问缓存失效;
当第三次次执行循环,CPU读取q[2][0]的时候,q[2][0]并不在Cache中,访问缓存失效;
当第四次执行循环,CPU读取q[3][0]的时候,q[3][0]并不在Cache中,访问缓存失效;
当第五次执行循环,CPU读取q[4][0]的时候,q[4][0]并不在Cache中,访问缓存失效;
.........
........
当j=0的时候,内循环共执行1000000次,其中缓存命中0次,缓存失效A次;
当j=1的时候,内循环共执行1000000次,其中缓存命中0次,缓存失效A次;
当j=i的时候,内循环共执行1000000次,其中缓存命中0次,缓存失效A次;
当j=199的时候,内循环共执行1000000次,其中缓存命中0次,缓存失效A次;

所以,对于demo2,缓存命中次数为 0,缓存失效次数为 B*A,缓存命中率为 0%。


综上分析可知,当大循环在外侧,小循环在里侧的时候,缓存命中率远大于 大循环在里侧,小循环在外侧的时候,所以demo1的耗时更少。


注:满足内层循环中操作数据在内存连续的就可以提高访问Cache命中率,就本题例子而言大循环在外侧,小循环在里侧速度快,但是如果本题所给数组列数多于行数,结果就相反

完整测试代码:
#include "stdio.h"
#include<time.h>
#define A 1000000
#define B 200

int p[A][B],q[A][B];

void demo1()
{
    int i,j;
	for (i = 0; i < A; i++)
	{
		for (j = 0; j < B; j++)
		{
			p[i][j]++;
		}

	}
}

void demo2()
{
    int i,j;
	for (j = 0; j < B; j++)
	{
		for (i = 0; i < A; i++)
		{
			q[i][j]++;
		}

	}
}

void shijian(void(*func)())
{
	time_t start, end;
	time(&start);
	func();
	time(&end);
	printf("%fs  ", difftime(end, start));

}

int main()
{
    int i;
    for (i = 0; i < 10; i++)
    {
	    shijian(&demo1);
            shijian(&demo2);
            printf("\n");
    }
    return 0;
}


欢迎大家访问俺的博客: 寻梦人博客
全部评论
诚然题主分析的不错,但是我觉得这不是大循环小循环的问题,是数组哪一维长,哪一维短,以及数组存储顺序的问题。勿喷。
点赞 回复 分享
发布于 2016-06-01 09:15
正常的嵌套循环下:小循环在外,大循环在内的执行效率更高! 但是楼主提的这个问题,刚好相反,究其原因为数组的储存顺序。在C++中数组按行存储,故按行操作的效率,肯定比按列要高,所以出现了这个小循环在内,大循环在外的执行效率更高 。 个人意见,不当之处,欢迎大家指正!
点赞 回复 分享
发布于 2016-07-24 16:20
局部性原理
点赞 回复 分享
发布于 2016-07-24 11:45
可能说的有点乱 ,这样麻烦楼主解释一下下面的代码那个快? for (i = 0; i < A; i++) { for (j = 0; j < B; j++) { printf("hello world\n"); } } 和 for (i = 0; i < B; i++) { for (j = 0; j < A; j++) { printf("hello world\n"); } } A=1000 B=10
点赞 回复 分享
发布于 2016-06-01 10:49
自己也是小白,有点不太懂楼主Demo2循环里面的执行语句为何是q[i][j]++ ,为何不是q[j][i],或者干脆把两个Demo循环里面的执行语句都替换为a++,那结果又怎么样呢
点赞 回复 分享
发布于 2016-06-01 08:48
我不知道你的主干里面的循环语句块内容打省略是啥意思?单就你举得这个例子是这样的,面试的时候也是同样的问题么?
点赞 回复 分享
发布于 2016-05-31 21:53
csapp里面有讨论。
点赞 回复 分享
发布于 2016-05-31 19:58

相关推荐

Rena1ssance_:对的,要是面评没太烂,勤更新简历等捞就行了,腾讯可以无限复活
点赞 评论 收藏
分享
避坑恶心到我了大家好,今天我想跟大家聊聊我在成都千子成智能科技有限公司(以下简称千子成)的求职经历,希望能给大家一些参考。千子成的母公司是“同创主悦”,主要经营各种产品,比如菜刀、POS机、电话卡等等。听起来是不是有点像地推销售公司?没错,就是那种类型的公司。我当时刚毕业,急需一份临时工作,所以在BOSS上看到了千子成的招聘信息。他们承诺无责底薪5000元,还包住宿,这吸引了我。面试的时候,HR也说了同样的话,感觉挺靠谱的。于是,我满怀期待地等待结果。结果出来后,我通过了面试,第二天就收到了试岗通知。试岗的内容就是地推销售,公司划定一个区域,然后你就得见人就问,问店铺、问路人,一直问到他们有意向为止。如果他们有兴趣,你就得摇同事帮忙推动,促进成交。说说一天的工作安排吧。工作时间是从早上8:30到晚上18:30。早上7点有人叫你起床,收拾后去公司,然后唱歌跳舞(销售公司都这样),7:55早课(类似宣誓),8:05同事间联系销售话术,8:15分享销售技巧,8:30经理训话。9:20左右从公司下市场,公交、地铁、自行车自费。到了市场大概10点左右,开始地推工作。中午吃饭时间大约是12:00,公司附近的路边盖饭面馆店自费AA,吃饭时间大约40分钟左右。吃完饭后继续地推工作,没有所谓的固定中午午休时间。下午6点下班后返回公司,不能直接下班,需要与同事交流话术,经理讲话洗脑。正常情况下9点下班。整个上班的一天中,早上到公司就是站着的,到晚上下班前都是站着。每天步数2万步以上。公司员工没有自己的工位,百来号人挤在一个20平方米的空间里听经理洗脑。白天就在市场上奔波,公司的投入成本几乎只有租金和工资,没有中央空调。早上2小时,晚上加班2小时,纯蒸桑拿。没有任何福利,节假日也没有3倍工资之类的。偶尔会有冲的酸梅汤和西瓜什么的。公司的晋升路径也很有意思:新人—组长—领队—主管—副经理—经理。要求是业绩和团队人数,类似传销模式,把人留下来。新人不能加微信、不能吐槽公司、不能有负面情绪、不能谈恋爱、不能说累。在公司没有任何坐的地方,不能依墙而坐。早上吃早饭在公司外面的安全通道,未到上班时间还会让你吃快些不能磨蹭。总之就是想榨干你。复试的时候,带你的师傅会给你营造一个钱多事少离家近的工作氛围,吹嘘工资有多高、还能吹自己毕业于好大学。然后让你早点来公司、无偿加班、抓住你可能不会走的心思进一步压榨你。总之,大家在找工作的时候一定要擦亮眼睛,避免踩坑!———来自网友
qq乃乃好喝到咩噗茶:不要做没有专业门槛的工作
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务