来自当知百科
跳转到: 导航搜索

statistical methods in data analysis

  由于测量的偶然误差以及被研究的物理现象本身的随机性质,实验观测数据是由带有偶然性的一些随机数据组成的。实验数据处理的任务是,由测得的有限个随机数据(观测值随机变量的一个样本),推断被测定物理量的数值,或物理量之间的函数关系或被研究的物理现象的其他规律性。数据处理必须应用以随机量为研究对象的统计数学方法,主要是概率论、数理统计学和随机过程理论的数学方法。在粒子物理实验中,由于物理现象本身固有的随机性质很突出,物理现象的规律性往往被所测数据表面上的偶然性所掩盖,所以选择适当的统计方法进行数据处理就更为重要。数据处理中最常用的统计方法有参量估计、假设检验、拟合以及蒙特-卡罗模拟等。

目录

参量估计

  被测定的物理量常常是观测值所服从的统计分布中的参量。例如,稳定粒子的寿命是其生存时间观测值所服从的指数分布中的参量,共振态的质量和寿命是其衰变产物系统不变质量所服从的布赖特-维格纳(Breit-Wigner)分布中的参量。由观测数据推断物理量的数值,需要应用数理统计学中的参量估计方法。

  最大似然法是估计分布参量值的一个最常用的方法。若观测值x服从概率密度函数为p(x;θ)的一个统计分布,分布参量θ为待测定的物理量,进行N次独立测量得到一组观测值x1、x2、…、xN,似然函数200712041547977-01.gif200712041548977-30.gif是在参量取某特定值θ的条件下出现该组观测数据的概率,最大似然法选择使似然函数取最大值的参量值200712041550966-12.gif作为特定参量θ的估计值:   

200712041550977-02.gif

估计值的误差用一定置信水平下的置信区间表示(见实验数据的误差处理)。置信区间可根据估计值的分布性质用区间估计的方法定出,利用参量估计的置信分布方法,可以得到被估物理量的一个完整的概率推断,即该物理量的置信分布。通常的测量误差处理是参量估计的一个特殊情况:观测值服从正态分布,被测物理量的真值是观测值正态分布的期待值,其最大似然估计值是观测值的算术平均值,平均值左右一倍标准误差区间的置信水平为68.3%。

  在被测物理量θ是一个随机变量,并且已知它的概率分布p(θ)(验前分布)的情况下,利用贝叶斯公式可以从观测值x1、x2、…、xN得出关于被测物理量数值的一个更精密的推断,即该物理量的验后分布,参量θ的验后分布的概率密度为   

200712041550977-03.gif

任意区间[θ1,θ2]的置信水平为

200712041550977-04.gif

拟合

  拟合是寻求被观测物理量之间的函数关系的统计数学方法,又叫做观测数据的平滑,设y和x都是被观测的物理量,并且y是x的函数,函数关系由理论公式y=f(x;c)表示,式中c=(с1,с2,…,сm)为m个待定的参量,拟合的任务是由测得的N对观测值200712041550977-05.gif200712041550977-06.gif、…、200712041550977-07.gif推断理论公式中的未知参量c。

  最常用的拟合方法是最小二乘法,在各观测值彼此独立且x 的测量误差可以忽略的情况下,最小二乘法选择使各观测点残差(y 的观测值与理论值之差)的“加权平方和最小”的参量值╦ 作为参数的估计值,即   

200712041550977-08.gif

其中σ崿为观测值y壟的方差。

  最小二乘法可用于解决物理实验中各种经验公式的实验曲线的建立问题(如粒子物理实验中粒子径迹的重建)。

假设检验

  参量估计和拟合方法用于由实验数据估计观测值统计分布中或被观测量间函数关系中的待定参量。但是,观测值所服从的统计分布或被观测量间函数关系的理论公式常常只是一种统计假设;这种假设是否能应用于实验的具体情况,是否同观测结果有显著的矛盾,需要用观测数据予以检验。实验中需要检验的统计假设还可以是关于观测值统计分布参量数值的某种断言,假设检验方法常用于判断实验条件(例如仪器指标)是否正常,是否存在明显的系统误差,或者实验结果中是否包含着观测值的统计分布或被观测量间函数关系的理论假设中所没有考虑到的新现象。假设检验方法还可用于从两种理论假设中挑选一个最可能的假设,例如从不同粒子的混合束中,根据测得的数据有效地挑选出某种需要的粒子。

  假设检验的一般方法,是选择一个观测数据的函数λ(x),叫做检验统计量,λ的数值表现了理论假设同实测数据的差异,而且在理论假设成立的条件下λ 的统计分布已知,则如果由测得数据算出的λ 值落入了表明与理论假设差异很大的某个区域之内(即在理论假设成立的条件下由λ的统计分布算得λ值落入该区域内的概率──显著水平──很小),就表明观测数据同理论假设存在显著的矛盾。

  在实际问题中,应当根据具体情况选择适当的检验统计量。

  一个广泛使用的检验统计量是皮尔孙 (Pearson)ⅹ2量,其定义为

200712041550978-01.gif

式中ni为落入区间i中观测值的个数,Ei为区间i中观测值个数的理论预期值。显然,ⅹ2值的大小表现了实验数据与理论值差异的大小;同时,如果理论假设是正确的,则ⅹ2量渐近地服从一个已知的ⅹ2分布,可以利用ⅹ2分布对差异的大小作出定量的概率估计。

  在观测值统计分布中的参量θ只有两个可能值 θ0和θ1的情况下,对于由观测值x判断参量是否为特定值θ0的参量检验问题,似然比是一个很有用的检验统计量,似然比的定义为

200712041553978-02.gif

蒙特-卡罗模拟

  见蒙特-卡罗法

  参考书目

  李惕碚著:《实验的数学处理》,科学出版社,北京,1980。

  A.G.Frodesen,et al.,ProBability and Statistics in particle Physics, Universitetsforlaget, Bergen,1979.

个人工具

变换
查看
操作
导航
工具箱