数据分布

创建于 2024-12-03 / 32
字体: [默认] [大] [更大]

什么是数据分布?

数据分布是所有可能值的列表,以及每个值出现的频率。

在处理统计和数据科学时,此类列表很重要。

random 模块提供返回随机生成的数据分布的方法。


随机分布

随机分布是一组遵循特定概率密度函数的随机数。

概率密度函数:描述连续概率的函数。 即数组中所有值的概率。

我们可以使用 random 模块的 choice() 方法根据定义的概率生成随机数 .

choice() 方法允许我们指定每个值的概率。

概率由 0 到 1 之间的数字设置,其中 0 表示该值永远不会出现,1 表示该值将始终出现。

实例

生成一个包含 100 个值的一维数组,其中每个值必须是 3、5、7 或 9。

值为3的概率设置为0.1

值为5的概率设置为0.3

值为7的概率设置为0.6

值为9的概率设置为0

from numpy import random

x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(100))

print(x) 亲自试一试 »

所有概率数之和应为1。

即使您将上述示例运行 100 次,值 9 也永远不会出现。

您可以通过在 size 参数中指定形状来返回任何形状和大小的数组。

实例

与上面的示例相同,但返回一个包含 3 行的二维数组,每行包含 5 个值。

from numpy import random

x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(3, 5))

print(x) 亲自试一试 »

0 人点赞过