假设$X_1,X_2,\ldots,X_n$是一列具有广义负相依结构的随机变量(r.v.s.), 分别具有分布$F_1,F_2,\ldots,F_n$.假设$S_n:=X_1+X_2+\cdots+X_n$.本文分别在三类重尾分布族下得到了如下量之间的渐近关系: $\pr(S_n>x)$,$\pr(\max\{X_1,X_2,\ldots,X_n\}>x)$, $\pr(\max\{S_1,S_2,\ldots,S_n\}>x)$~和~$\tsm_{k=1}^n\pr(X_k>x)$. 在此基础上,本文还探讨了随机加权和最大值尾概率的渐近性质,并运用蒙特卡洛~(CMC)~数值模拟验证了其有效性. 最后,本文将得到的主要结果应用到了一个带有保险风险与金融风险的离散时间风险模型,得到了有限时间破产概率的渐近性.
在软件缺陷预测的回归建模中,由静态代码提取的类层面度量元~(特征)~以及由方法聚合(sum、avg、max、min)到类的特征往往较多, 使用传统的特征选择方法(如AIC、BIC)通常先要确定了模型,不同的模型选出的特征集差异较大, 且模型的可解释性差.最大信息系数MIC(maximal information coefficient)是Reshef等\ucite{4}提出的度量两个连续变量之间相互依赖程度的一个指标, 且有基于观测数据的计算办法.本文基于软件缺陷个数与各特征的MIC度量先选择特征,再对所选特征进行了适当的幂次变换, 最后使用主成分泊松和负二项回归建模.本文实验基于NASA的KC1的类层面数据集,采用了$m\times2$交叉验证的序贯$t$-检验来对两模型的性能差异的显著性进行检验,模型性能评价指标采用FPA、AAE、ARE. 实验结果表明:1)基于MIC选出的特征主要是sum、avg、max三种聚合模式特征,与AIC、BIC方法有明显的差异;2)对特征做适当的幂次变换在多数模型下可以改善其性能;3)对特征做幂次变换后,做主成分分析与因子分析可以得到两个明显的因子,其一个因子正好对应avg与max聚合模式的特征集,另一个因子正好对应sum的聚合模式特征集, 使得模型具有较好的可解释性.综合实验的各项指标可以得出, sum、avg、max三种聚合模式对软件缺陷预测有显著作用,且基于MIC所选特征而构造的模型是有优势的.