正交偏最小二乘回归判别分析(OPLS-DA)-SMICA14.1操作图文教程
侧边栏壁纸
  • 累计撰写 47 篇文章
  • 累计收到 18 条评论

正交偏最小二乘回归判别分析(OPLS-DA)-SMICA14.1操作图文教程

wyatt
2024-05-06 / 0 评论 / 830 阅读 / 正在检测是否收录...

    正交偏最小二乘判别分析(Orthogonal PLS-DA,OPLS-DA )是一种有监督的判别分析方法,是多变量统计分析方法,常用于代谢组学分析。本文详细记录了使用SMICA14.1软件进行OPLS-DA分析的图文步骤,希望能对初学者能有所帮助。视频学习可以参考b站论文讲解(香气物质、内含物质看这里)与SIMCA如何做OPLS-DA分析Simca软件PCA OPLS-DA功能使用教程

    先放下载链接:SMICA14.1:https://pan.baidu.com/s/1fOIXZWEe3W36vau6pXnriw?pwd=9527  提取码:9527

    注意OPLS-DA通常用于两组样品的对比分离,寻找差异物质,两组以上可考虑偏最小二乘法判别分析(PLS-DA)或者主成分分析(PCA)

导入数据

    如图在excel表中列好数据,第一列Primary ID  为样品名称,第二列Class ID为样品组的分类,然后是各项指标。

    打开smica软件,将excel的数据导入,新建项目文件,然后保存。注意样本数据的缺失值(值为0)不能太多,当样本中的缺失值过多时,样本本身就缺乏了统计学意义,并且极有可能成为异常样本,所以需要对缺失值过多的样本数据进行去除处理。

数据分析

    打开刚保存的项目文件,点击dataset即可看到原始数据。

    在进行OPLS-DA分析前,需先进行PCA分析。先选中M1项目,点击autofit自动拟合,然后点击“new”,下方“model type”选择“PCA-X”,确定完成分析。

    会弹出如下界面,出现一个柱状图,弹出一个对话框(即交叉验证的结果),点击“add”增加一个主成分,会出现两个主成分(这里根据R2Y和Q2Y的值来选择(add or remove)主成分的个数,两者越接近1越好,最少为2个,且要满足>0.5,不然出不了载荷图和得分图,模型可信度不高)这里只选择了两个主成分,但也满足要求,然后点击“score”,产生一个得分图,点击loadings产生载荷图。右键点击“create”→”list”,可以导出得分图和载荷图的原始数据,这些数据可以导入到origin软件中,更好地作图,修改美化

    PCA分析结束后,点击得分图,右键选择“new as model 1”进行OPLS-DA分析,按图进行操作,“scale”中全设置为par,“model type”选择“OPLS-DA”,然后自动拟合,“add”一个主成分(这里仅两个主成分的R2Y和Q2Y值就很高),模型的两个得分值,R2Y代表了模型的可解释性(差异性),Q2Y则代表了模型的可预测性(可靠性),两者的值越接近1越好。点击“score”和“loadings”生产得分图和载荷图。

    得分图可以看两组样品是不是分得很开,存不存在差异,横坐标表示预测成分得分值,横坐标方向可以看出组间的差距;纵坐标表示正交成分得分值,纵坐标方向可以看出组内的差距;百分比表示成分对数据集的解释度。

    载荷图可以看出成分的聚类程度,挨在一块的成分表示相似度高,能被聚成为一类;主成分的载荷代表变量与主成分之间的相关性(正相关和负相关),因此第一象限的点表现为强正相关,第四象限的点表现为强负相关。

    接着需要对OPLS-DA结果进行置换检验(permutation test),判断模型是否存在“过拟合”。选中项目M2,点击“analyze”界面的“permutations”,将20更改为“200”,然后确定。

    判断条件:1. 原始的R2Y和Q2Y(最右边的两个点)总是大于左边那些置换后对应的值(左边那些散点)。2. 看截距,根据经验判断,优秀的模型R2Y的截距不超,0.3-0.4,Q2Y的截距不超过0.05(通常为负值)。但在实际项目中,能满足两条斜线的斜率为正,且Q2Y的截距不超过0.05就可以了。


    最后计算“VIP”值,“home”栏点击“VIP”旁边小三角,选择“VIP Predictive”(一般来说VIP total和predictive相差不大,但优先用VIP Predictive),右键“create”→“list”可导出数据到origin等软件中重新作图。VIP值越大,代表该物质对于区分两组所具有的贡献越大,一般认为,VIP值大于1的代表这种物质的组间差异显著。如果想进一步提取p<0.05的差异成分,这里可以利用插件omics计算(参考SIMCA14.1的基本操作(包含p值、vip值、置换检验等),或者导出数据使用spss的独立样本t检验来分析(这里应该是用到了VIP Total的数据)。

    至于“s-plot”图的横坐标表示主成分与各类成分的协相关系数,纵坐标表示主成分与各类成分的相关系数,越靠近右上角和左下角的成分其差异越显著


结果图片展示

    下图分别为s-plot图,载荷图,得分图、VIP值和置换检验图,一般论文只需放后三张图片即可。



参考资料:

精工致善丨多元统计分析之PCA、PLS-DA、OPLS-DA 

代谢组学研究的十大误区——误区十 OPLS-DA模型能将两组分开即表示两组之间有差异?

邵淑贤,徐梦婷,林燕萍,等.基于电子鼻与HS-SPME-GC-MS技术对不同产地黄观音乌龙茶香气差异分析[J].食品科学,2023,44(04):232-239.

李少辉,赵巍,刘松雁,等.SDE-GC-MS结合OPLS-DA分析不同生态区谷子品种香气特征[J].中国农业科学,2023,56(13):2586-2596.

SIMCA的OPLS-DA相关_oplsda的r2x和r2y

5

评论 (0)

取消