复发性流产中的函数学习数据分析

引言

复发性自然流产在许多临床文献中也称为复发性妊娠丢失,是一个棘手的数据分析问题,因为信号通常分布在大量微弱且相关的测量指标之中。单个生物标志物很少足够。实际问题反而是:一组测量指标能否揭示稳定的模式,从而帮助区分患者群体、概括风险,或提示哪些生物通路值得进一步研究。

这篇笔记记录了一种用于分析 RSA 数据的贝叶斯函数学习方法。其目的不是取代临床判断,而是描述一个可复现的统计工作流:用结构化特征表示每位受试者,学习一组低维的共享模式,并在保留不确定性的前提下将这些模式与结局或标签关联起来。

主要思想包括:

  • 将观测到的测量值视为带噪声的函数或高维轮廓,而不是彼此孤立的标量变量。
  • 学习一组紧凑的潜在模式字典,这些模式在受试者之间共享。
  • 在有监督信息可用时加以利用,使学习到的表示对分类或预测有用。
  • 报告不确定性,而不只是点估计,因为生物医学研究的样本量通常有限。

结果

一次函数学习分析应当产生三类结果。

首先,它应当给出每位患者的低维表示。与其检查数百或数千个原始特征,不如用一个较小的潜在得分向量来概括每位受试者。这些得分更容易通过散点图、聚类或后验可信区间进行可视化。

其次,它应当识别共享的函数模式。在字典学习模型中,这些模式是基元素。患者轮廓由其中若干基元素组合重构而成。如果字典是稀疏的,每位受试者只使用少数模式,这会让表示更容易解释。

第三,有监督层应当把这些潜在得分与临床标签或结局联系起来。例如,如果结局是二分类的,模型可以在潜在得分上使用逻辑回归。如果结局是连续的,高斯回归层可能更合适。关键在于,预测是在学习到的表示上进行,而不是直接作用于原始高维数据。

一个最小报告清单包括:

  • 交叉验证的预测表现,例如准确率、AUC、校准度或均方误差,具体取决于结局类型。
  • 模型参数和患者层面潜在得分的后验不确定性。
  • 重构诊断,用于显示学习到的字典是否能良好表示观测轮廓。
  • 针对字典元素数量和先验选择的敏感性检查。
  • 明确区分探索性模式与经过临床验证的结论。

方法

分析从受试者层面观测矩阵开始。令 \(X_i\) 表示受试者 \(i\) 的观测轮廓,令 \(y_i\) 表示相关标签或结局。该轮廓可以是生物标志物向量、基因表达测量值、免疫指标,或另一种结构化特征集。

一个简单的函数表示为:

\[X_i(t) = sum_{k=1}^{K} z_{ik} d_k(t) + epsilon_i(t),\]

其中 \(d_k(t)\) 是第 \(k\) 个学习到的字典函数,\(z_{ik}\) 是受试者特异的载荷,\(epsilon_i(t)\) 是残差噪声。写成向量形式为:

\[X_i = Dz_i + epsilon_i.\]

这里,\(D\) 是字典矩阵,\(z_i\) 是受试者 \(i\) 的潜在得分向量。可以通过对 \(z_i\) 设置先验来鼓励稀疏性,使每位受试者只由少数活跃的字典元素表示。

对于二分类结局,有监督层可以写为:

\[Pr(y_i = 1 mid z_i, beta) = operatorname{logit}^{-1}(alpha + z_i^Tbeta).\]

对于连续结局,可以使用:

\[y_i sim mathcal{N}(alpha + z_i^Tbeta, sigma_y^2).\]

贝叶斯版本会在 \(D\)\(z_i\)\(beta\) 以及方差项上放置先验。随后可根据数据规模,使用 MCMC、变分推断或其他近似方法进行后验推断。

函数学习

当测量指标天然有序或具有结构时,函数学习很有用。索引 \(t\) 可以表示时间、基因组位置、频率、剂量,或只是一个有序的特征轴。即使观测值以表格形式存储,把它们视为一个轮廓也可以保留邻域信息,而这些信息在纯粹的独立特征模型中会丢失。

一个实用工作流如下:

  1. 清理数据并记录缺失情况。
  2. 使用仅从训练集学习到的参数对特征进行归一化。
  3. 选择初始字典元素数量 \(K\)
  4. 拟合无监督重构模型。
  5. 加入有监督结局模型。
  6. 在留出数据上评估预测与校准。
  7. 使用不同的 \(K\) 值重复分析,并比较稳定性。

应当通过重构留出轮廓来检查模型。如果学习到的字典无法重构数据,那么有监督结果不太可能可靠。如果重构效果良好但预测效果较差,则测量轮廓中可能没有足够信息来预测所选结局。

有监督字典学习

无监督字典学习只试图解释 \(X\)。有监督字典学习则试图在解释 \(X\) 的同时,学习一种对 \(y\) 有用的表示。可以通过联合拟合重构模型与结局模型来实现:

\[p(X, y mid D, Z, beta) = p(X mid D, Z) p(y mid Z, beta).\]

这个联合目标会鼓励潜在得分同时具备重构能力和预测能力。在实践中,避免过拟合非常重要,尤其是在特征数量远大于受试者数量时。正则化、稀疏性、交叉验证和后验预测检查并不是可有可无的细节;它们是分析的核心保障。

当特征具有已知图结构时,例如相互作用网络或通路关系,可以考虑图神经网络。在这种情况下,图应当来自外部知识或仅来自训练数据,并且评估应确认基于图的模型相较于更简单的基线有所改进。只有当结构相较于普通函数回归或字典学习能增加预测价值或解释价值时,图模型才有用。

分析的最终输出应当保持克制:一组学习到的模式、患者层面的潜在摘要、预测诊断和不确定性估计。任何生物学解释都应被视为有待进一步验证的假设,而不是临床结论。

Leave a Reply