极大似然函数。 最大似然估计

一文读懂最大似然估计(附R代码)

极大似然函数

最大似然估计概述 最大似然估计是一种,它用来求一个样本集的相关的参数。 这个方法最早是遗传学家以及统计学家爵士在1912年至1922年间开始使用的。 最大似然法明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。 最大似然法是一类完全基于的系统发生树重建方法的代表。 该方法在每组序列比对中考虑了每个核苷酸替换的概率。 例如,转换出现的概率大约是颠换的三倍。 在一个三条序列的比对中,如果发现其中有一列为一个C,一个T和一个G,我们有理由认为,C和T所在的序列之间的关系很有可能更接近。 由于被研究序列的共同祖先序列是未知的,概率的计算变得复杂;又由于可能在一个位点或多个位点发生多次替换,并且不是所有的位点都是相互独立,概率计算的复杂度进一步加大。 尽管如此,还是能用客观标准来计算每个位点的概率,计算表示序列关系的每棵可能的树的概率。 然后,根据定义,概率总和最大的那棵树最有可能是反映真实情况的系统发生树。 离散分布,离散有限参数空间 考虑一个的例子。 假设这个硬币正面跟反面轻重不同。 我们把这个硬币抛80次(即,我们获取一个采样 并把正面的次数记下来,正面记为H,反面记为T)。 假设我们抛出了49个正面,31 个反面,即49次H,31次T。 假设这个硬币是我们从一个装了三个硬币的盒子里头取出的。 这些硬币没有标记,所以我们无法知道哪个是哪个。 使用 最大似然估计,通过这些试验数据(即采样数据),我们可以计算出哪个的可能性最大。 这个可能性函数取以下三个值中的一个: 我们可以看到当 时,可能性函数取得最大值。 这就是 p的 最大似然估计. 离散分布,连续参数空间 现在假设例子1中的盒子中有无数个硬币,对于 中的任何一个 p, 都有一个抛出正面概率为 p的硬币对应,我们来求其可能性函数的最大值: 其中. 我们可以使用微分法来求最值。 方程两边同时对 p取微分,并使其为零。 因此我们说 最大似然估计值为. 这个结果很容易一般化。 只需要用一个字母 t代替49用以表达伯努利试验中的被观察数据(即)的'成功'次数,用另一个字母 n代表伯努利试验的次数即可。 使用完全同样的方法即可以得到 最大似然估计值: 对于任何成功次数为 t,试验总数为 n的伯努利试验。 有人可能会担心两个参数与上边的讨论的例子不同,上边的例子都只是在一个参数上对可能性进行最大化。 实际上,在两个参数上的求最大值的方法也差不多:只需要分别把可能性 在两个参数上最大化即可。 当然这比一个参数麻烦一些,但是一点也不复杂。 最大化一个似然函数同最大化它的自然对数是等价的。 因为自然对数log是一个连续且在似然函数的值域内严格递增的函数。 [注意:可能性函数(似然函数)的自然对数跟信息熵以及Fisher信息联系紧密。 求对数通常能够一定程度上简化运算,比如在这个例子中可以看到: 这个方程的解是. 这个方程的解是. 解对数似然方程所得,即为未知参数 的最大似然估计值。 , X n是来自总体X的样本, X 1, X 2...

次の

极大似然估计与方差

极大似然函数

最大似然估计概述 最大似然估计是一种,它用来求一个样本集的相关的参数。 这个方法最早是遗传学家以及统计学家爵士在1912年至1922年间开始使用的。 最大似然法明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。 最大似然法是一类完全基于的系统发生树重建方法的代表。 该方法在每组序列比对中考虑了每个核苷酸替换的概率。 例如,转换出现的概率大约是颠换的三倍。 在一个三条序列的比对中,如果发现其中有一列为一个C,一个T和一个G,我们有理由认为,C和T所在的序列之间的关系很有可能更接近。 由于被研究序列的共同祖先序列是未知的,概率的计算变得复杂;又由于可能在一个位点或多个位点发生多次替换,并且不是所有的位点都是相互独立,概率计算的复杂度进一步加大。 尽管如此,还是能用客观标准来计算每个位点的概率,计算表示序列关系的每棵可能的树的概率。 然后,根据定义,概率总和最大的那棵树最有可能是反映真实情况的系统发生树。 离散分布,离散有限参数空间 考虑一个的例子。 假设这个硬币正面跟反面轻重不同。 我们把这个硬币抛80次(即,我们获取一个采样 并把正面的次数记下来,正面记为H,反面记为T)。 假设我们抛出了49个正面,31 个反面,即49次H,31次T。 假设这个硬币是我们从一个装了三个硬币的盒子里头取出的。 这些硬币没有标记,所以我们无法知道哪个是哪个。 使用 最大似然估计,通过这些试验数据(即采样数据),我们可以计算出哪个的可能性最大。 这个可能性函数取以下三个值中的一个: 我们可以看到当 时,可能性函数取得最大值。 这就是 p的 最大似然估计. 离散分布,连续参数空间 现在假设例子1中的盒子中有无数个硬币,对于 中的任何一个 p, 都有一个抛出正面概率为 p的硬币对应,我们来求其可能性函数的最大值: 其中. 我们可以使用微分法来求最值。 方程两边同时对 p取微分,并使其为零。 因此我们说 最大似然估计值为. 这个结果很容易一般化。 只需要用一个字母 t代替49用以表达伯努利试验中的被观察数据(即)的'成功'次数,用另一个字母 n代表伯努利试验的次数即可。 使用完全同样的方法即可以得到 最大似然估计值: 对于任何成功次数为 t,试验总数为 n的伯努利试验。 有人可能会担心两个参数与上边的讨论的例子不同,上边的例子都只是在一个参数上对可能性进行最大化。 实际上,在两个参数上的求最大值的方法也差不多:只需要分别把可能性 在两个参数上最大化即可。 当然这比一个参数麻烦一些,但是一点也不复杂。 最大化一个似然函数同最大化它的自然对数是等价的。 因为自然对数log是一个连续且在似然函数的值域内严格递增的函数。 [注意:可能性函数(似然函数)的自然对数跟信息熵以及Fisher信息联系紧密。 求对数通常能够一定程度上简化运算,比如在这个例子中可以看到: 这个方程的解是. 这个方程的解是. 解对数似然方程所得,即为未知参数 的最大似然估计值。 , X n是来自总体X的样本, X 1, X 2...

次の

极大似然估计法_用极大似然估计法推导朴素贝叶斯法中的先验概率估计

极大似然函数

最大似然估计法的基本思想 最大似然估计法的思想很简单:在已经得到试验结果的情况下,我们应该寻找使这个结果出现的可能性最大的那个 作为真 的估计。 我们分两种情进行分析: 1.离散型总体 设 为离散型随机变量,其概率分布的形式为 ,则样本 的概率分布为 ,在 固定时,上式表示 取值 的概率;当 固定时,它是 的函数,我们把它记为 并称 为似然函数。 似然函数 的值的大小意味着该样本值出现的可能性的大小。 既然已经得到了样本值 ,那它出现的可能性应该是大的,即似然函数的值应该是大的。 因而我们选择使 达到最大值的那个 作为真 的估计。 2.连续 型总体 设 为连续型随机变量,其概率密度函数为 则 为从该总体抽出的样本。 因为 相互独立且同分布,于是,样本的联合概率密度函数为 ,在 是固定时,它是 在 处的 密度,它的大小与 落在 附近的概率的大小成正比,而当样本值 固定时,它是 的函数。 我们仍把它记为 并称 为似然函数。 类似于刚才的讨论,我们选择使 最大的那个 作为真 的估计。 总之,在有了试验结果即样本值 时,似然函数 反映了 的各个不同值导出这个结果的可能性的大小。 我们选择使 达到最大值的那个 作为真 的估计。 这种求点估计的方法就叫作最大似然法。 2 最大似然估计的求法 假定现在我们已经观测到一组样本 要去估计未知参数。 一种直观的想法是,哪一组能数值使现在的样本 出现的可能性最大,哪一组参数可能就是真正的参数,我们就要用它作为参数的估计值。 这里,假定我们有一组样本. 如果对参数的两组不同的值 和 ,似然函数有如下关系 , 那么,从 又是概率密度函数的角度来看,上式的意义就是参数 使 出现的可能性比参数 使 出现的可能性大,当然参数 比 更像是真正的参数. 这样的分析就导致了参数估计的一种方法,即用使似然函数达到最大值的点 ,作为未知参数的估计,这就是所谓的最大似然估计。 现在我们讨论求最大似然估计的具体方 法. 由于对数函数是单调增函数,所以 7. 1 与 有相同的最大值点。 而在许多情况下,求 的最大值点比较简单,于是,我们就将求 的最大值点改为求 的最大值点. 对 关于 求导数,并命其等于零,得到方程组 , 7. 2 称为似然方程组。 解这个方程组,又能验证它是一个极大值点,则它必是 ,也就是 的最大值点,即为所求的最大似然估计。 大多常用的重要例子多属于这种情况。 然而在一些情况下,问题比较复杂,似然方程组的解可能不唯一,这时就需要进一步判定哪一个是最大值点。 还需要指出,若函数 关于 的导数不存在时,我们就无法得到似然方程组 7. 2 ,这时就必须根据最大似然估计的定义直接去 的最大值点。 在一些情况下,我们需要估计。 如果 分别是 的最大似然估计,则称 为 的最大似然估计。 下面我们举一些例子来说明求最大似然估计的方法。 例 7. 1 设从正态总体 抽出样本 ,这里未知参数为mm 和 (注意我们把 看作一个参数)。 3 代入第二式得. 于是 和 的最大似然估计为 ,. 5 这里,我们用大写字母表示所有涉及的样本,因为最大似然估计 和 都是统计量,离开了具体的一次试验或观测,它们都是随机的。 例 7. 因为 的二阶导数总是负值,可见,似然函数在 处达到最大值。 3 设总体 为 上的均匀分布,求 的最大似然估计。 的概率密度函数为 对样本 , 很显然, L a, b 作为 a 和 b的二元函数是不连续的。 这时我们不能用似然方程组 7. 2 来求最大似然估计,而必须从最大似然估计的定义出发,求 L a, b 的最大值。 类似地, a不能大过。 因此, a和 b 的最大似然估计为 ,. 现在为止,我们以正态分布,泊松分布,均匀分布的参数以及事件发生的概率的估计为例子讨论了矩估计和最大似然估计。 在我们所举的例子中,除了均匀分布外,两种估计都是一致的。 矩估计的优点是简单,只需知道总体的矩,总体的分布形式不必知道。 而最大似然估计则必须知道总体分布形式,并且在一般情况下,似然方程组的求解较复杂,往往需要在计算机上通过迭代运算才能计算出其近似解。 转载本文请联系原作者获取授权,同时请注明本文来自简建波科学网博客。 链接地址: 上一篇: 下一篇:.

次の