2024-10-24, 23:34-今日內容

Nvim ]] 可以跳跃大的block 比如class 之间, 很方便, [[ 是往前跳。 立即启用carla 并且禁止渲染画面: schi square 和pearson的区别 主要就是schi sauqre 是用在categorical的数据。 pearson… anova 名字叫做analysis of variance, 其实他是在进行variance的比较。 比较简单的操作就是: Scipy 的levene 非常有用, 可以判断很多歌样本的variance也就是方差是不是相等, t检验只有在方差variance… 虽然z 和t检验都是对正太进行检验, 但是他们的表格是不一样的: T检验一个非常简单的例子:主要就是计算T T检验的目的:主要是来检验两个样本分布是不是来自同一个地方 或者说他们有没有显著性的差异。 对于mean 和std 都要进行检验。 单尾和双尾检验test的唯一区别就是我们找出来的z的临界区间呗。 其实在计算步骤上是完全一致的, 只是最后结果的对比需要更换 双尾 单尾 检测。 记住双尾巴就是检测是否不等于, 单尾就是检测是否大于还是小于。 T 和z test 都涉及到双尾和单尾检测。 什么时候直行t test / z test。 只要我们能找到std或者估计出来std, 就可以用ztest。 Z 和t test的不同: 他们其实很类似, 都是基于正太分布的, 但是z是打样本, t是小样本。 Cdf其实是方便我们计算才出现的东西。 因为我们可以直接查两个cdf, 相减就是区间的概率 , 而不是每次都用pdf进行积分, 算… Pdf 和概率p的关系: 准确的来说 就是cdf是 pdf的积分。 也就是pdf可以看到某个点的p 的density。 Scipy可以实现z score 和不是standar normal distribution的概率的计算。主要的包是:scipy… 我随便哪一个不是标准的正态分布给你 你可以用这个z的table 给我算出任何地方和区间的概率。 上网查表, z score的, 也… T distribution 在N 也就是样本量很大的时候接近normal分布。 t检验就是去看两个样本均值mean的差异,我们有…

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Nvim ]] 可以跳跃大的block 比如class 之间, 很方便, [[ 是往前跳。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

立即启用carla 并且禁止渲染画面: ./CarlaUE4.sh -opengl -RenderOffScreen

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

schi square 和pearson的区别 主要就是schi sauqre 是用在categorical的数据。 pearson… schi square 和pearson的区别 主要就是schi sauqre 是用在categorical的数据。 pearson是用在连续数据的。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

anova 名字叫做analysis of variance, 其实他是在进行variance的比较。 比较简单的操作就是: Levene’s 检验:用于判断组间方差是否相等。 ANOVA:用于判断组间均值是否相等。 在实际分析中,可以先使用 Levene’s 检验验证方差是否相等,再进行 ANOVA 检查均值差异。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Scipy 的levene 非常有用, 可以判断很多歌样本的variance也就是方差是不是相等, t检验只有在方差variance… Scipy 的levene 非常有用, 可以判断很多歌样本的variance也就是方差是不是相等, t检验只有在方差variance相同的时候才能进行。 他是前提 具体例子:  相等方差与不等方差 |Coursera 餐厅 — Equal vs unequal variances | Coursera

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

虽然z 和t检验都是对正太进行检验, 但是他们的表格是不一样的: z分布(标准正态分布)适用于样本量较大时,临界值固定,例如双尾检验的临界值为±1.96(显著性水平0.05)。

t分布适用于样本量较小时,临界值取决于自由度(样本大小相关),例如双尾检验在显著性水平0.05和自由度8时,临界值约为±2.306。

这两个分布在小样本和大样本情况下的使用场景有所不同。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

T检验一个非常简单的例子:主要就是计算T 们来举一个具体的t检验例子。

假设我们有两组样本数据,分别为:

组A: [5, 6, 7, 8, 9]

组B: [7, 8, 9, 10, 11]

我们想要检验这两组数据的均值是否显著不同。步骤如下:

计算两组的均值和标准差:

组A: 均值 = 7, 标准差 = 1.58

组B: 均值 = 9, 标准差 = 1.58

计算T统计量:

T = (均值差异) / (标准误差)均值差异 = 9 - 7 = 2标准误差 = sqrt((1.58^2 / 5) + (1.58^2 / 5)) = sqrt(0.5 + 0.5) = sqrt(1) = 1T = 2 / 1 = 2

查找临界值:对于双尾检验,显著性水平为0.05,自由度为8(n1 + n2 - 2),临界值约为2.306。

比较T统计量和临界值:T统计量 = 2,小于临界值2.306,因此我们不拒绝零假设,认为两组均值没有显著性差异。

通过这个例子,可以看到t检验的具体步骤和如何判断结果。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

T检验的目的:主要是来检验两个样本分布是不是来自同一个地方 或者说他们有没有显著性的差异。 对于mean 和std 都要进行检验。 t检验通过检验样本均值和标准差来判断两个样本是否来自同一个总体。具体来说,t检验会考虑:

样本均值(mean):两个样本的均值是否显著不同。

样本标准差(std):样本的变异性或散布情况。

这些信息结合起来,用于计算t统计量,从而判断两个样本之间的差异是否显著。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

单尾和双尾检验test的唯一区别就是我们找出来的z的临界区间呗。 其实在计算步骤上是完全一致的, 只是最后结果的对比需要更换 单尾检验和双尾检验的计算步骤基本一致,主要区别在于显著性水平的分布和临界值的选择:

单尾检验:显著性水平的5%集中在一个方向上,临界值为 ±1.64(根据方向不同)。

双尾检验:显著性水平的5%分布在两侧,每侧各占2.5%,临界值为 ±1.96。

主要区别是如何确定显著性水平和相应的临界值

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

双尾 单尾 检测。 记住双尾巴就是检测是否不等于, 单尾就是检测是否大于还是小于。 双尾检验:检测均值是否不等于(两侧都有可能)。

单尾检验:检测均值是否大于或小于(单侧)。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

T 和z test 都涉及到双尾和单尾检测。 双尾检验:用于检测均值是否有显著差异(不等于),即你关心的是是否有任何方向上的显著差异。

单尾检验:用于检测均值是否大于或小于另一个均值,即你关心的是特定方向上的显著差异。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

什么时候直行t test / z test。 只要我们能找到std或者估计出来std, 就可以用ztest。 使用z检验:当样本量较大(n > 30)且总体标准差已知时。

使用t检验:当样本量较小(n ≤ 30)或总体标准差未知时。 如果不确定std知不知道, 可以查资料, 一行行业或者研究会给出std的。 或者我们可以用统计工具,利用样本进行估计std。 如果总体标准差未知,通常使用t检验;如果总体标准差已知或可以合理估计,则使用z检验。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Z 和t test的不同: 他们其实很类似, 都是基于正太分布的, 但是z是打样本, t是小样本。 Z 检验 通常适用于大样本(一般 n > 30),且已知总体标准差;而 T 检验 适用于小样本(一般 n ≤ 30),且总体标准差未知。它们的基础都是正态分布,但 T 检验使用的是T 分布(一种基于正态分布的小样本修正)

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Cdf其实是方便我们计算才出现的东西。 因为我们可以直接查两个cdf, 相减就是区间的概率 , 而不是每次都用pdf进行积分, 算… Cdf其实是方便我们计算才出现的东西。 因为我们可以直接查两个cdf, 相减就是区间的概率 , 而不是每次都用pdf进行积分, 算得太慢了。 同时scipy 为什么算的快, 也是这个原因。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Pdf 和概率p的关系: • PDF 提供的是密度(density),而真正的概率需要通过对 PDF 进行积分来求得,即计算一个范围内的面积。 • 概率密度(density)与概率(P)的关系可以类比为:如果你有一个高度不变的区域(比如一个矩形),它的高度(即密度)并不能直接告诉你整个区域的面积(概率)。只有把高度(密度)乘以宽度(范围),才能得到面积(概率)。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

准确的来说 就是cdf是 pdf的积分。 也就是pdf可以看到某个点的p 的density。 ,CDF(累积分布函数)是PDF(概率密度函数)的积分。CDF表示的是一个随机变量小于或等于某个值的累积概率,而PDF描述的是在某个特定点的概率密度。CDF可以通过对PDF进行积分得到

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

Scipy可以实现z score 和不是standar normal distribution的概率的计算。主要的包是:scipy… Scipy可以实现z score 和不是standar normal distribution的概率的计算。主要的包是:scipy.stats.norm.cdf, 他计算出来的就直接是概率, 我们只需要给他一个数字, 也就是小于这个数字的区间, p的累积是多少 cdf 代表累积分布函数(Cumulative Distribution Function),它计算的是一个给定 Z 值或数据点以下的概率,即小于或等于该值的概率。 当我们把一个数据标准化(计算 Z-score)后,可以将 Z 值输入 cdf 函数,直接得到对应的左尾概率。

一个例子: import scipy.stats as stats

计算标准正态分布中小于或等于1.96的概率

probability = stats.norm.cdf(1.96) print(probability)

解释: 示例 假设我们有一个均值为 50,标准差为 10 的正态分布,要计算数据点 60 以下的概率: 1. 首先标准化:Z

 2.  3. 


Z=1060−50 =1.0 4. 然后在 Python 中使用 scipy.stats.norm.cdf 计算:python
Copy code


from scipy.stats import norm 5. probability = norm.cdf(1.0) 6. 7. print(probability) 8. 

 9. 
这个代码会输出大约 0.8413,表示小于或等于 60 的概率为 84.13%。 如果你需要计算大于某个值的概率,可以用: python Copy code 1 - norm.cdf(1.0)

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

我随便哪一个不是标准的正态分布给你 你可以用这个z的table 给我算出任何地方和区间的概率。 上网查表, z score的, 也… 我随便哪一个不是标准的正态分布给你 你可以用这个z的table 给我算出任何地方和区间的概率。 上网查表, z score的, 也就是标准化之后的。 然后,我们转化成mean使0, sigma是1之后, 我们可以查看zscore对应的概率。 具体有个很好的解释: 是的,正是这样!无论你给我一个什么样的正态分布(不一定是标准正态分布,即均值不为 0 或标准差不为 1),我们都可以通过标准化(Z-score)来将它转换为标准正态分布,然后使用 Z 表来计算任何位置或区间的概率。

如何操作:

  1. 标准化(Z-score)
    • 给定一个正态分布,其均值为 (\mu),标准差为 (\sigma),我们有一个数据点 (X)。
    • 计算其 Z 值: [ Z = \frac{X - \mu}{\sigma} ]
    • 这个 Z 值就是在标准正态分布中的对应位置。
  2. 查 Z 表
    • 使用标准化得到的 Z 值,在 Z 表中查找对应的概率值。
    • Z 表给出的概率通常是小于或等于该 Z 值的区域(左尾概率)。
  3. 计算特定区间的概率
    • 如果要计算某个区间的概率(例如在 (a) 到 (b) 之间的概率),可以分别计算 Z 值 (Z_a) 和 (Z_b),然后查表: [ P(a < X < b) = P(Z < Z_b) - P(Z < Z_a) ]
    • 如果要计算大于某个值的概率,可以用: [ P(X > c) = 1 - P(Z < Z_c) ]

举个例子:

假设一个正态分布的均值是 50,标准差是 10,你想知道数据点 60 以上的概率是多少:

  1. 标准化: [ Z = \frac{60 - 50}{10} = 1.0 ]
  2. 查 Z 表,找到 Z = 1.0 对应的概率,大约是 0.8413。
  3. 计算大于 60 的概率: [ P(X > 60) = 1 - 0.8413 = 0.1587 ]

这表示有 15.87% 的概率值大于 60。

因此,不论原始分布的均值和标准差是什么,只要是正态分布,我们都可以通过标准化和 Z 表来计算任何点或区间的概率!如果你有其他具体的例子或数据集,我可以帮你进行计算。

🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️下一個筆記🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️🐿️

T distribution 在N 也就是样本量很大的时候接近normal分布。 t检验就是去看两个样本均值mean的差异,我们有… T distribution 在N 也就是样本量很大的时候接近normal分布。 t检验就是去看两个样本均值mean的差异,我们有显著性水平alpha和算出来的p。 原假设null hypothesis 就是他们没有差异, alyernative hypothesis 就是他们有显著差异。 我们用原来的假设, 设定alpha是0.05. 那么p如果小于alpha 我们就去拒绝null hypothesis 也就是所他们有显著差异。 具体实现可以用scipy的ttest

#匯總今日內容