最近我们被客户要求撰写关于虚拟变量回归的研究报告,包括一些图形和统计输出。
在本文中,本文与以下两个问题有关。你应该如何添加虚拟变量?你应该如何解释结果
如果使用一个例子,我们可能会更容易理解这些问题。
假设我们想研究工资是如何由教育、经验和某人是否担任管理职务决定的。假设
下面是部分数据和摘要。
有和没有管理职位的人的工资和教育之间的关系。
jitter(alpha=0.25,color=colpla[4])+
facet_wrap(~管理职位)+
boxplot(color=colpla[2])
有管理职位和没有管理职位的人的工资和经验之间的关系,以教育为基础。
点击标题查阅往期内容
01
02
03
04
stat_smooth(method = "lm")+
facet_wrap(~管理职位)
我们只将工资与教育、经验和管理职位进行回归。其结果是
虽然这些参数在统计学上是有意义的,但这并没有任何意义。与高中相比,大学学历怎么可能使你的工资减少5105?
正确的模型应该包括教育和管理职位的交互项。
现在,让我们添加教育和管理之间的交互项,看看会发生什么。
现在的结果是有意义的。
为了使我们的模型有效,我们需要满足一些假设。
正态Q-Q图看起来是线性的。所以这个假设得到了满足。
D-W检验值为1.8878,接近2,因此,这个假设也满足。
预测变量edu、exp和mngt的VIF值均小于5,因此满足这一假设。
你可以通过用一个数据子集运行模型来获得同样的结果。你可以将数据按教育程度分成子集,并在每个子集上运行回归模型,而不是使用一个教育的虚拟变量。
如果只用高中生的数据,你会得到这样的结果。
sub<-d %>%
+ filter(教育=="高中")
仅凭大学生的数据,你就能得到这个结果。
只用来自博士生的数据,你会得到这个结果。
本文选自《R语言使用虚拟变量(Dummy Variables) 回归分析工资影响因素》。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。