1. 极牛网首页
  2. 大数据

数据分析经典问题:两个朋友同一天过生日的概率?

数据分析经典问题:两个朋友同一天过生日的概率?

如果把N个人分成几组,那么至少有两个人是同一个人的概率是多少?

现在让我们猜一猜:假设这个组有30个人。两个人在同一天吃生日蛋糕的可能性有多大?换句话说:你敢赌10美元赌两个人在同一个月的同一天出生吗?

我们将以这个例子结束,但是首先我们需要收集所有的组件(也就是下面的标题部分)来解决生日难题。

基础中的基础

为了完全“迂腐”,我们将省略引起人们注意的介绍部分:概率的值在0和1之间(如果你愿意,你也可以说它在0%和100%之间)。好了,现在你明白为什么像“我1000%肯定他们会迟到”这样的句子会让数据类人猿神经过敏了。

分析概率的三种方式

当人们分析概率时,他们通常使用三种方法:

如果你的统计老师没有一个单词一个单词地强调基本点,那么作者告诉你课本会提到以下内容:

基于事件的概率

概率=[分子/[分母]

前几章将从基于事件的概率分析方法开始。因为人们可以很容易地通过这种方法获得基本信息,也许大多数人(你知道)已经有了这种直觉。例如,背面朝上扔硬币的概率是多少?1/2。掷骰子时6分的概率是多少?1/6。为什么?

分子:被调查事件的可能发生次数

分母:任何(相关)事件的发生次数

在硬币的情况下,分母意味着所有相关事件都面朝上并备份。这是分母2的来源。这很简单。

细数事件

要处理基于事件的概率问题,我们首先需要列出所有事件并记录事件的数量。这就是为什么教科书可能会一直谈论如何结合分析,直到你彻底厌倦为止。组合分析可以教你如何计算事件的数量(分子和分母)。

回顾家庭作业中出现的无数问题,它只不过是:“从100名候选人中选出19名成员有多少种方法?”(17310309456440)或“一组4位密码有多少种组合?”(1000种)。

在基于事件的世界中,所有时间组都有相同的发生概率,因此它们不受算法中每层混乱调节器的影响。在这个世界上,投出的每枚硬币正面和背面朝上的概率是相等的,投出的所有骰子的数量是平衡的,所有的牌不需要重新排列,所有人的出生日期是均等分布的。

对于生日,我们需要快速理解什么是计数:

“与”要求吃(x)计数的产品。“或”需要()计数的叠加。

你可以寻找证据.或者快速阅读这个例子来满足你对知识的渴望:如果有两种素食和三种肉食可供选择,有多少种选择?答案是2 3=5种可能性。如果我确定我会选择一顿正餐并从两种甜点中选择相同的一种,在这种情况下会有多少种组合?答案是5×2=10。你不相信吗?你可以找到几个菜,并逐一写下所有的组合。

随机搭配的一餐是素食的可能性有多大?

分子=2x 2=4;分母=10

答案=4/10=40%

超越事件

考虑以下问题:“你至少要等十分钟才能上车的概率是多少?”这将是一个很难“计数”的问题(需要多少秒?),在这里计数甚至会变得棘手,因为你不能通过计数来划分连续的时间介质。更糟糕的是,一些公交车司机可能会根据公交车延误的程度考虑是否停下来休息一下。你怎么能列举这种情况?这是不可能的。也许计数在这里根本不适用.

当学习基于频率的概率定义时,人们会遇到以下陈述:“如果上述事件发生在无限平行宇宙中(受限或假设受某些规则的约束),在10分钟内会有多少辆公共汽车到达?”(平行宇宙?难怪我们的数据类人猿总是有一个清晰的视觉。

那么(通常在很长一段时间后),当达到教科书中贝叶斯数据的主观概率定义部分时,你很可能会根据自己的感觉建立一个分布。你看,在你被剥夺列出事件的能力后,剩下的方法是不是很复杂?然而,对于生日,假设所有366个生日都有相同的概率,我们可以继续计数。

什么,你不喜欢我的假设?想想看,所有的统计数据都是关于假设——,否则宇宙会陷入混乱。如果你不喜欢我的假设,认为我的计划不符合你的期望,那么就提出一个新的计划。我们可以随心所欲地做假设,因此数据是有创造性的。我想不适当地引用乔治·博克斯的一句名言:“所有的解决方案都是错误的,但是一旦一个解决方案符合你的假设,它可能对你有用。”

没有称赞之意

解决生日问题的最后一个组件是补码,另一方面它也被称为NOT。

P(不是A)=1- P(A)

公式为:“一个事件(由于创造力有限,我们称之为事件A)不发生的概率等于100% 概率减去事件发生的概率。”

那么掷骰子时没有6点出现的概率是多少?

答案是1-1/6=5/6

好的,就这样。现在我们准备好解决生日问题了!

生日问题

又是什么问题?

如果一组中有n个人,那么至少有两个人是同一个人的概率是多少?

让我们建造乐高积木吧。

生日问题的分母

一个人有几个生日,366(如上所述)。

那么当N=30时会有多少个生日呢?

第一个人有366种可能性,第二个人有366种,第三个人有366种.n个人366。将这些N乘以366得到结果!

分母=366 n,天堂是个大数字!n是30,结果是一个76位数字,比1000之后的24组“000”的数字还要大(给事物命名难道不好笑吗?)

生日问题的分子

准备好让你头晕的部分。在这里,我们需要记录所有不同的可能性,并确保至少两个人在同一天庆祝他们的生日。因此,如果第一个人有366个选择,第29个人有1个选择,因为它需要与第一个人一致,但它可能是第二个人或第17个人,或者三个人在同一天过生日,或者.不,试图记住你头脑中所有可能的选择会变得混乱。

.这就是为什么生日问题将成为一个非常有趣的项目。你需要绞尽脑汁才能明白诀窍。你就是这样找到这篇博文的吗?好,我理解你)。

解决生日问题的窍门

与其列出两个或更多的人都在同一个房间的可能性,不如把问题变成一个更简单的角度:找到问题的反面!

P(至少两个人是同一个男人)=1-P(所有人都不是同一个男人)

所以我们只需要问以下问题的答案:“没有人是同一个男人的概率是多少?”换句话说,每个人都不是同一个人的可能性有多大?

“所有人都不是同一天生日”的分母

答案仍然是366 n。通过转换问题的补码,我们将关注分子,保持分母不变。

“所有人都不是同一天生日”的分子

这就是魔力!

第一个人的生日有366种可能性(贪婪的家伙),而第二个人只有365种可能性,因为我们要求他们的生日不要在同一天。如果第一个人的生日是10月8日,我们将排除所有在10月8日 祝生日的人。这样,每个样本中成员可能的生日数量将越来越少。

所以366是第一个人的可能数量,365是第一个人的可能数量,364是第三个人的可能数量.(367-N)是第N个人的可能数量。

如果n是30,乘以数字来见证奇迹!

366 X 365 X 364 X 363 X 362 X 361 X 360 X 359 X 358 X 357 X 356 X 355 X 354 X 353 X 352 X 351 X 350 X 349 X 348 X 347 X 346 X 345 X 344 X 343 X 342 X 341 X 340 X 339 X 338 X 337=…

ah,另一个

然而,幸运的是,如果处理得当,计算机将帮助我们处理除法问题。

也许这不是我们需要的

p(所有39人的生日不在同一天)=(366 x 365 x 364 x 363 x 362 x 361 x 360 x 359 x 358 x 357 x 356 x 355 x 354 x 353 x 352 x 351 x 350 x 349 x 348 x 347 x 346 x 345 x 343 x 342 x 341 x 340 x 330

=0.3

最后,就是我们需要的数值!

p (30个人有相同的男性)=1-0.3=70%

在一组30个人中,某个人生日相同的概率约为70%。

我希望你没有赌10美元,说某人的生日不太可能在同一天,而不是每个人的生日都在同一天.但是如果你做得更好,我不反对给维基百科捐款。

错误的赌注可能是因为你低估了不重复一组数据——的难度。如果你是负责拦截阿曼梅所有和房间里的人一样的人的保镖,那些想进入房间的人很快就会失望。

这取决于你有多少个朋友……

我可以用两分钟通过计算机上的r程序得到每个n的概率。如果你对具体的值感到好奇(当n等于23时50%的概率,当n等于55时99%的概率),你可以体验我写的代码串。它可能看起来不太好,但它确实有效。您可以在浏览器上运行而无需下载。

数据分析经典问题:两个朋友同一天过生日的概率?

我们学到了什么?

除了一些基本的概率知识(处理概率问题的不同方法、分子和分母的计算方法)和计数原理(加法原理和乘法原理)之外,本文的主要思想是为什么特定的问题需要以特定的顺序来解决。

为什么在教科书的开头计数是最重要的,但是在下面的内容中,计数将会从我们的视野中消失,让我们愤愤不平?结果似乎表明,每种方法都有其目的,而且每个事件概率相等的前提对于专业人员来说太简单了,无法消化.甚至在生日问题上。当业余爱好者想象数据分析类人猿每天在做什么时,他们首先想到的是数卡和掷硬币,这不是很有趣吗?要否认谣言,就跑断你的腿!

生日问题是引入数据分析的经典问题,因为这个问题所需的脑力恰到好处:数据分析师需要学习如何转换问题,使转换后的问题更容易解决。简单粗糙的方法很难计算,所以需要一种不同的方法。如果你选择数据分析的生活,一定要为一系列抛硬币和转换问题做好准备。

极牛网精选文章《数据分析经典问题:两个朋友同一天过生日的概率?》文中所述为作者独立观点,不代表极牛网立场。如若转载请注明出处:https://jikenb.com/3582.html

发表评论

登录后才能评论