1.如何利用R软件绘制散点图
首先,下载并安装好R软件。打开R软件,可以看到R软件主窗口。
为了方便编辑代码,一般不在主窗口直接输入程序。我们可以点击“文件——新建程序脚本”,出现R编辑器。我们将在此输入需要运行的命令。
使用因子格式输入数据。这里输入两组数据,以便后面说明详细使用方法。
输入命令plot(x),表示绘制序列x的散点图。选中程序,右键,点击“运行当前行或选中代码”,运行程序。按F5键或者Ctrl+R键也可以实现。在图标显示框出现散点图了。
输入命令plot(x,y),其中x表示自变量,y是因变量,生成y关于x的散点图。运行命令,即出现散点图。
再增加一组数据,用coplot函数绘制多变量的散点图。coplot(x~m|y)表示在不同的y值下,x关于m的散点图。
7
更多可以查阅相关资料,绘制更美观的散点图。
2.R语言做的程序怎么用
(1)plot(lm.ridge(GDP~Consume+Investment+IO+Population+Jobless+Goods,
data=dat,lambda=seq(0,0.3,0.001))) # 和线性回归类似,这个plot可以画出岭迹图,lambda=seq(0,0.3,0.001)设置范围和间隔,可以观察岭迹图,人工选择,但是这样主观性较强。
(2)select(lm.ridge(GDP~Consume+Investment+IO+Population+Jobless+Goods,
data=dat,lambda=seq(0,0.3,0.001))) #利用select 函数找出最优岭参数lambda,会有三个值,任选一个即可。
lm.ridge(GDP~Consume+Investment+IO+Population+Jobless+Goods,
data=dat,lambda=0.09) #通过(1)或(2)把选取的lmbda 参数写到岭回归函数中去,在这里lambda=0.09。
3.如何利用R软件进行聚类分析
1. 数据预处理,
2. 为衡量数据点间的相似度定义一个距离函数,
3. 聚类或分组,
4. 评估输出。
数据预处理包括选择数量,类型和特征的标度,它依靠特征选择和特征抽取,特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类,数据预处理还包括将孤立点移出数据,孤立点是不依附于一般数据行为或模型的数据,因此孤立点经常会导致有偏差的聚类结果,因此为了得到正确的聚类,我们必须将它们剔除。
既然相类似性是定义一个类的基础,那么不同数据之间在同一个特征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特征标度的多样性,距离度量必须谨慎,它经常依赖于应用,例如,通常通过定义在特征空间的距离度量来评估不同对象的相异性,很多距离度都应用在一些不同的领域,一个简单的距离度量,如Euclidean距离,经常被用作反映不同数据间的相异性,一些有关相似性的度量,例如PMC和SMC,能够被用来特征化不同数据的概念相似性,在图像聚类上,子图图像的误差更正能够被用来衡量两个图形的相似性。
将数据对象分到不同的类中是一个很重要的步骤,数据基于不同的方法被分到不同的类中,划分方法和层次方法是聚类分析的两个主要方法,划分方法一般从初始划分和最优化一个聚类标准开始。Crisp Clustering,它的每一个数据都属于单独的类;Fuzzy Clustering,它的每个数据可能在任何一个类中,Crisp Clustering和Fuzzy Clusterin是划分方法的两个主要技术,划分方法聚类是基于某个标准产生一个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分离性用来合并和分裂类,其他的聚类方法还包括基于密度的聚类,基于模型的聚类,基于网格的聚类。
评估聚类结果的质量是另一个重要的阶段,聚类是一个无管理的程序,也没有客观的标准来评价聚类结果,它是通过一个类有效索引来评价,一般来说,几何性质,包括类间的分离和类内部的耦合,一般都用来评价聚类结果的质量,类有效索引在决定类的数目时经常扮演了一个重要角色,类有效索引的最佳值被期望从真实的类数目中获取,一个通常的决定类数目的方法是选择一个特定的类有效索引的最佳值,这个索引能否真实的得出类的数目是判断该索引是否有效的标准,很多已经存在的标准对于相互分离的类数据集合都能得出很好的结果,但是对于复杂的数据集,却通常行不通,例如,对于交叠类的集合。
4.如何利用R软件绘制箱线图
箱线图在文献中经常见到,是对数据分布的一种常用表示方法。但是所见资料中往往说的不是特别清楚,因此需要了解一下箱线图的绘制过程,与部分的意义。计算过程:
1 计算上四分位数,中位数,下四分位数
2 计算上四分位数和下四分位数之间的差值,即四分位数差(IQR,interquartile range)
3 绘制箱线图的上下范围,上限为上四分位数,下限为下四分位数。在箱子内部中位数的位置绘制横线。
4 大于上四分位数1.5倍四分位数差的值,或者小于下四分位数1.5倍四分位数差的值,划为异常值(outliers)。
5 异常值之外,最靠近上边缘和下边缘的两个值处,画横线,作为箱线图的触须。
6 极端异常值,即超出四分位数差3倍距离的异常值,用实心点表示;较为温和的异常值,即处于1.5倍-3倍四分位数差之间的异常值,用空心点表示。
7 为箱线图添加名称,数轴等。
在SPSS,SigmaPlot, R,SPlus,Origin等软件中,绘制箱线图非常方便。
下面是R中的一个箱线图举例
箱线图举例:
在R软件中输入如下命令:
对c向量绘制箱线图。
5.如何用R软件导入excel数据表中数据
做分析没有数据真是一大悲剧,正是无源之水、无根之木再加上无米之炊。通常我们搜寻到的数据格式主要有文本格式、Excel格式和SPSS格式。当然也会有从数据库等其它途径进来,这不在本文讨论范围内。
一般的文本格式导入,都可以用read.table命令把数据扔进R里面。Excel和Spss数据的话,可用相应软件将文件打开,观察数据结构后将其复制到剪贴板,然后一样可以用read.table('clipboard')扔到R里面。如果文件太大不好复制,那么可以利用Excel和Spss的导出功能,将数据导出成文本格式。
还有一种情况就是,你的计算机上没有安装Excel或是Spss,这数据导入就要用到RODBC扩展包了。首先装载RODBC包。然后输入数据文件的绝对路径(要注意是用/而不是\)来定义连接,最后用数据抓取命令获取你需要的标签页数据内容(Sheet1)。
library(RODBC)
channel=odbcConnectExcel("d:/test.xls")
mydata=sqlFetch(channel,'Sheet1')这样简单的两个步骤就可以将Excel数据导入R的mydata变量中。如果是Excel2007格式数据则要换一个函数
channel=odbcConnectExcel2007('d:/test.xlsx')
mydata=sqlFetch(channel,'Sheet1')导入spss的sav格式数据则要用到foreign扩展包,加载后直接用read.spss读取sav文件
library(foreign)
mydata=read.spss('d:/test.sav')上面的函数在很多情况下没能将sav文件中的附加信息导进来,例如数据的label,那么建议用Hmisc扩展包的spss.get函数,效果会更好一些。