双向长短期记忆神经网络模型在自然语言处理中广泛使用, 但其调优问题是使用中的难点.本文以自然语言处理中的语义角色识别任务为例, 在双向长短期记忆神经网络模型的调优中, 将4 个候选特征(词、词性、目标词和位置) 和2 个超参数(网络的层数和是否在顶层添加CRF 分类器) 看作稳健设计中的因子, 设置各因子的水平, 进行实验来选择特征和超参数的最优配置组合. 本文在小数据集(6692 条带有语义角色标注信息的例句) 上以3 *2 交叉验证来做完全实验, 以稳健设计的望大特性信噪比为优化目标, 选出了模型的最优配置组合, 并采用因子的方差分析, 定量分析了各因子对模型性能的影响, 使得模型有一定的可解释性. 为了验证本文选出的最优配置组合的优良性, 采用传统方法,在大数据集(约4 万条例句) 上以自然语言处理中常用的标准切分8:1:1, 基于传统的贪心策略调优方法选出最优配置组合, 并与本文方法在测试集进行比较, 验证了本文的调优方法优于传统的调优方法.
对于我国城市经济水平、环境水平的综合排序, 目前已经有了比较完善的指标体系排序方法, 但是其中涉及的大多都是多元数据.随着获取数据的方式增多和获取数据的技术日新月异, 数据变得越来越复杂,某些领域所产生的观测数据不再是单纯的某一类数据, 而是多种类型数据的组合.本文研究的就是当指标体系涉及到函数型数据时, 该如何排序. 对此,本文提出四种综合排序方法, 并通过数值模拟对这些方法进行比较和选择,得到以下结论: 当函数型数据受污染时, 熵权法排序结果较稳定;
当标量数据受污染时, 多元修正带状深度排序方法更为稳定. 研究表明,多类型数据排序方法的选择还需要根据原始数据的特征而定.该研究丰富了多类型数据的综合排序方法, 具有很好的现实意义.
当响应变量随机缺失时,对感兴趣的参数进行统计推断过程中,常见的两个工作模型为回归函数模型及选择概率模型.为避免由于模型设定错误所带来的推断偏差,
针对回归函数模型及选择概率模型进行模型检验是必要且有意义的. 为此,本文首次将特征函数分别应用于响应变量随机缺失及响应变量为离散变量的模型检验问题, 构造了基于样本点间欧氏距离的检验统计量.所提检验避免了平滑参数如带宽的选择,同时能够以最快的参数速度检测到局部备择假设. 进一步,本文将交并检验理论与模型检验理论相结合, 针对复合原假设:两个工作模型中至少有一个模型设定正确, 提出了交并模型检验方法.该检验的一个重要应用场景为判断参数的双稳健估计是否为相合估计.本文深入研究了交并模型检验在原假设、全局备择假设及局部备择假设下的渐近性质, 并利用boostrap方法确定检验的拒绝域,研究交并模型检验在有限样本下的功效表现. 最后,本文将所提的交并模型检验方法应用于分析艾滋病研究的临床试验数据.值得一提的是, 本文所提的交并模型检验不仅具有良好的功效表现,而且方法简单易行, 对应的p-值易于计算.