主页 ›
学科分类 ›
统计学论文
统计学
路径签名
随机微分方程
参数估计
粗糙路径理论
文章提出了一种针对路径依赖随机微分方程(SDE)的建模与参数估计框架。通过引入签名SDE概念,将漂移项和扩散项建模为路径签名的线性泛函,利用路径签名的通用性和特征性实现任意路径依赖现象的建模。在理论层面,文章建立了签名SDE解的存在唯一性条件,并基于粗糙路径理论证明了短时间区间内的解存在性。创新性地提出期望签名匹配方法(ESMM),通过匹配观测轨迹与理论期望签名实现参数估计,严格证明了该方法的统计一致性。数值实验验证了ESMM在多种路径依赖场景下的参数估计精度。
大数定律
高维统计
弱依赖性
最大值不等式
相关性筛选
文章针对零均值随机三角阵列,推导了最大样本均值的弱大数定律(max-WLLN)和强大数定律(max-SLLN)。研究在三种依赖设定下展开:独立性、τ混合和物理依赖。文章首先忽略坐标间的依赖作为基准,随后在鞅、近鞅和混合坐标条件下改进k_n的界。最后,将结果应用于三个场景:α混合或物理依赖下回归残差的最大相关统计量的k_n界;将相关性筛选(边际回归)扩展到具有发散维度k_n→∞的物理依赖数据;在τ混合线性时间序列回归模型中,剔除固定维数冗余参数后检验高维参数。
多重检验
家族误差率
高斯相关
文章提出了一种简单单步多重检验方法,能够在等相关的多元高斯设定下渐近精确地控制家族误差率(FWER)。该方法通过显式插件估计器处理等相关性,无需逐步调整。研究建立了该方法的理论性质,包括误差水平收敛性,并通过仿真验证了其有效性。文章还探讨了该方法在块相关结构和广义FWER控制中的扩展应用。
极值理论
删失数据
Kaplan-Meier估计
文章针对右删失的帕累托型数据,提出了一种改进的尾部指数估计方法。传统方法要求未删失观测比例超过1/2(弱删失情形),而新方法通过引入调谐参数β>1,赋予估计量适当权重,将适用范围扩展到全删失范围(0<p<1)。研究建立了估计量的相合性和渐近正态性,仿真结果表明在强删失情况下(p≤1/2)较现有方法具有更小的偏差和均方误差。方法在保险损失(弱删失)和艾滋病数据(强删失)两个实际案例中验证了有效性。
协方差
高效影响曲线
算子代数
文章探讨了协方差在统计算子代数中的表达形式,揭示了其作为期望算子与乘法算子交换子的本质。通过引入高效影响曲线(EIC)作为中心化算子,文章建立了期望、乘法和中心化算子之间的交换子恒等式,并证明了相关的雅可比恒等式。这一发现为半参数效率理论提供了新的代数视角,将统计泛函的微分结构与算子代数框架联系起来,为现代因果推断中的高效估计方法奠定了理论基础。
强化学习
统计推断
在线自助法
文章研究了有限时间范围内带噪声的线性二次强化学习(LQ RL)问题中的统计推断方法。针对策略梯度估计量,首次建立了中心极限定理,并提出了基于在线自助法的置信区间构造方法。该方法通过随机扰动策略梯度更新轨迹,实现了对最优策略的统计推断,同时适用于模型已知和模型未知的场景。理论分析证明了自助过程的分布一致性,并通过数值实验验证了该方法在噪声线性动态系统中的有效性。
非参数统计
相关性分析
偏差校正
文章针对Azadkia和Chatterjee提出的最近邻图相关系数存在的偏差问题,提出了一种基于回归调整的偏差校正方法。该方法通过估计条件均值函数并构造U统计量形式的偏差估计量,有效消除了原始估计量中非渐近可忽略的偏差项。理论分析表明,校正后的估计量具有根号n一致性和渐近正态性,同时保持了原始估计量的极限方差。模拟研究验证了该方法在高维数据下的优越性能,特别是在强相关性和高维情况下显著提升了估计精度。
核方法
假设检验
统计学习
文章提出了一种基于最大均值差异(MMD)谱分解的新型核两样本检验方法。该方法通过识别和利用再生核希尔伯特空间(RKHS)中估计质量较高的方向分量,显著提升了检验功效。研究采用多核聚合策略,结合高效的乘数自助法计算临界值,在保持第一类错误率的同时,对高维和不平衡样本数据表现出更强的鲁棒性。模拟实验和微阵列数据集实证表明,该方法在计算效率和统计性能上均优于现有MMD检验。
因果推断
测地学
最优传输
文章提出了因果测地学框架,用于研究从观测分布到干预分布之间的连续路径。该框架通过构建测地线(最短路径)来定义平滑的随机干预序列,连接纯观测数据和确定性干预。特别关注基于Wasserstein距离和Hellinger距离的测地路径,分析了不同路径在识别条件和估计效率上的权衡。研究还探讨了边际结构模型在路径参数化中的应用,为因果效应估计提供了新的方法论视角。
因果推断
非参数统计
单调回归
文章研究了连续处理变量下的因果剂量响应曲线非参数推断问题。通过开发基于似然比检验的双重稳健置信区间方法,在单调性假设下实现了对处理效应曲线的点态推断。该方法通过倒置检验统计量构建置信区间,避免了曲线偏差估计的难题。双重稳健性体现在结果回归和广义倾向得分两个干扰函数的估计误差乘积构成余项,允许其中一个干扰函数估计较差时另一个估计良好。文章进一步提出了能适应未知曲线平坦度水平的自适应检验方法,并通过模拟研究和护士工时对医院绩效影响的实际数据分析验证了方法的有效性。