1、线性模型~回归分析:【包】:stats 【函数】:lm(formula, data, ...)逐步回归:step(lm(formula, data, ...))回归诊断:influence.measure(lm(formula, data, ...))多重共线性:kappa(xx,exact=t), eigen(xx)自相关检验:一阶:dwtest(y~x) 多阶:bgtest(y~x,order=2,type=”ch**q”)【备注】:1)stats包里的lm()可做多元线形模型,anova.mlm()比较多个多元线形模型,manova()做多元方差分析(manova)。2)sn包的msn.mle()和 and mst.mle()可拟合多元偏正态和偏t分布模型。3)pls包提供偏最小二乘回归(plsr)和主成分回归;4)ppls包可做惩罚偏最小二乘回归;5)dr包提供降维回归方法,如:片逆回归法(sliced inverse regression)、片平均方差估计(sliced **erage variance estimation)。6)plsgenomics包做基于偏最小二乘回归的基因组分析。7)relaimpo包可评估回归参数的相对重要性。2、log**tic回归:【包】:stats 【函数】:glm(formula, family=gaussian,data, ...)注:familybinomial(link = "logit") gaussian(link = "identity") gamma(link = "inverse") inverse.gaussian(link = "1/mu^2") po**son(link = "log") quasi(link = "identity", variance = "constant") quasibinomial(link = "logit") quasipo**son(link = "log")3、无监督分类~决策树:【包】:rpart 【函数】:rpart(formula,data, method="class",control=ct,parms=l**t(prior=c(p,1-p),split="**rmation"))rpart.plot(fit,branch=1,branch.type=2,type=1,extra=102,shadow.col=”gray”,box.col=”green”,split.cex=1.2,main=”kyphos**决策树”) #提供了复杂度损失修剪的修剪方法printcp(fit):告诉**到哪一层,cp,nsplit,rel,error,交叉验证的估计误差(xerror),标准误差(xstd)prune(fit,cp=fit$cptable[which.min(fit$cptable[,"xerror"]),"cp"]):剪枝函数【备注】:1)cran的 machinelearning任务列表有对树方法的细节描述。2)分类树也常常是重要的多元方法,rpart包正是这样的包,3)rpart.permutation包还可以做rpart()模型的置换(permutation)检验。4)twix包的树可以外部剪枝。 5)hier.part包分割多元数据集的方差。6)mvpart包可做多元回归树,7)party包实现了递归分割(recursive partitioning),8)rrp包实现了随机递归分割。9)caret包可做分类和回归训练,进而caretlsf包实现了并行处理。10)kknn包的k-近 邻法可用于回归,也可用于分类。4、支持向量机:【包】:e1071,kernlab【函数】:svm(x_train,y_train,type="c-classification",cost=10,kernel="radial",probability=true,scale=false)svp=ksvm(x,y,type="c-svc",kernel="rbf",kpar=l**t(sigma=1),c=1)5、无监督分类~聚类分析:【包】:stats 【函数】:系统聚类:hclust(d,method=”complete”,members=**)快速聚类:kmeans(x,centers,iter.max=10,nstart=1,algorithm=“hartigan-wong”)距离函数:d**t(x,method=”euclidean”,diag=false,upper=false,p=2)【备注】:1)cran的cluster任务列表全面的综述了r实现的聚类方法。2)stats里提供等级聚类hclust()和k-均值聚类kmeans()。3)cluster包里有大量的聚类和可视化技 术,4)clv包里则有一些聚类确认程序,5)e1071包的classagreement()可计算rand index比较两种分类结果。6)trimmed k-means聚类分析可由trimcluster包实现,7)聚类融合方法(cluster ensembles)由clue包实现,8)clustersim包能帮助选择最佳的聚类,9)hybridhclust包提供一些混合聚类方法。10)energy包里有基于e统计量的距离测度函数ed**t()和等级聚类方法hclust.energy()。11)llahclust包提供基于似然(likelihood linkage)方法的聚类,也有评定聚类结果的指标。12)fpc包里有基于mahalanob**距离的聚类。13)clustvarsel包有多种基于模型的聚类。14)模糊聚类(fuzzy clustering)可在cluster包和hopach包里实现。15)kohonen包提供用于高维谱(spectra)或模式(pattern)的有监督和无监督的som算法。16)clustergeneration包帮助模拟聚类。17)cran的environmetrics任务列表里也有相关的聚类算法的综述。18)mclust包实现了基于模型的聚类,19)mfda包实现了功能数据的基于模型的聚类。 20210311