取对数!取对数?

🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会

理论 + 实证:从「读懂模型」到「折腾模型」
🎦 理论模型构建专题
📅 2021 年 10 月 2-3 日 (周六-周日)
🔑 郭凯明副教授 (中山大学)
🍓 课程主页:https://gitee.com/lianxh/emodel
🌴报名链接: http://junquan18903405450.mikecrm.com/QdtTXkm
理论模型可以简洁、凝练地抽离出经济现象的本质,使我们能够进行更深层次的思考和分析。然而,建立理论模型并非易事,若能将 理论和实证有机结合,那更加难能可贵了。
为此,我们邀请到了中山大学岭南学院郭凯明副教授,与大家一同学习理论模型的构建。郭老师一直专注于经济转型与中国经济方面的研究,发表论文近 40 篇,其中《经济研究》7 篇。
郭老师将从模型设定初衷、最基本的假设条件入手,通过讨论各种可能的建模思路和弯路,让学生不自觉中已经建立起理论分析的思维模式。最终的目标是:让学生不仅能「读懂模型」,还能「折腾模型」—— 可以自己修改甚至新设模型。
扫码直达课程主页:
作者: 秦范 (四川大学)
E-mail: qf13032861571@163.com
目录
1. 引言
2. Why 取对数?
3. How 取对数?
4. 如何解释估计系数?
4.1 取对数意味着什么?
4.2 对数-水平模型: 取对数
4.3 水平-对数模型: 取对数
4.4 对数-对数模型:常弹性模型
5. 总结
6. 参考资料
7. 相关推文
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
1. 引言
变量到底取不取对数?取对数又意味着什么?这看似是一个经验问题。
本文主要依据知乎“在设计计量经济学模型时,怎么判断是否应该对变量取对数?”的讨论展开分析,试图帮助大家判断变量是否需要取对数,并进一步掌握变量取对数后对估计参数的合理解释。
2. Why 取对数?
Source: 以下分析主要根据知乎网友 司马懿在 在设计计量经济学模型时,怎么判断是否应该对变量取对数? 中的高赞回答整理而得,编排过程中文字略有改动。
(1) 缩小数据之间的绝对差异;避免个别极端值的影响
考虑一个场景,比如二手车交易市场数据中,有奔驰、奔奔,两者价格差异巨大。现在要研究二手车性质(如公里数、新旧程度)对二手车成交价格的影响,并采用线性回归,会出现什么问题呢?
结果是回归出来的参数会被昂贵车的数据所绑架,而便宜车的特性在回归中得不到充分体现。因为奔驰车价格的任意波动可能是整个二手奔奔的价格了。
而取对数后,昂贵车与便宜车原本几十倍的价格差距可能变成了个位数的微小差异,从而使得便宜车二手车性质能在回归模型中体现。
取对数可以视为“不改变原始数据相对大小的单调变换”,取对数本身也不会改变变量间的相关性,因此如果数据中存在个别极端异常值,取对数则是对正常数据的保护,能避免线性回归时参数估计被个别极端异常值绑架。
(参考知乎网友:司马懿)
(2) 尽可能满足经典线性模型假定(Classic Linear Model)
避免共线性(参考知乎网友:唐柠)
避免异方差,满足同方差基本假定
再次回到研究二手车性质对二手车成交价格的影响这一问题:直接线性回归所得到的估计参数被昂贵车数据所绑架,即昂贵车在决定估计参数时的权重天然增大了。
这在统计上被称为异方差问题,即 ,从而违背了 CLM 同方差假定。
而取对数能很大程度上缓解异方差,更有可能通过方差齐性检验。(参考知乎网友:司马懿)
尽可能符合正态分布 取对数只是 Box-Cox tansformation(广义幂变换方法,将非正态分布转换为正态分布的一系列方法)的一种最普遍的方法(参考知乎网友:三田园) 一些数据的分布经常呈长尾形态,而这种带长尾的斜度为正的数据分布往往在取对数之后近似正态分布(参考知乎网友:司马懿) 比如在 Wooldridge 的 Introductory Econometrics (2009, 4e,pp.119) 中提到“通常利用对数转换使变量更符合正态分布假定。比如 就比 更符合正态分布假定”。
(3) 经济学意义
用线性模型估计非线性关系
比如,考虑教育回报方程,相比于“每多接受一年教育,增加的工资相同”,“每多接受一年教育,工资增长的百分数相同”更合理。具体而言,相比于“每多接受一年教育,小时工资都增加 54 美分”,“每多接受一年教育,工资都增长 8%”更合理。因为后者更能刻画工资增长量随受教育程度的增加而增加的规律,即教育回报递增,受教育程度对工资水平的偏效应随着受教育程度的增加而增加(见 Wooldridge 的 Introductory Econometrics,2009,4e,pp.43)。
直接估计弹性/半弹性
弹性是经济学中一个重要指标,衡量了一个变量的百分比变动会导致另一个变量百分比变动的程度。半弹性,即因变量取对数,自变量不取,表示自变量变动一个单位引起因变量多少的百分比变化。
比如产出对资本和工人劳动时间回归,变量都取对数。(参考知乎网友:司马懿)
因此 就表示资本变化 1%,产量变动百分之 ,则 表示弹性。
取对数背后的经济理论模型
。
其中, 是全要素生产率,在 上加一个扰动,再两端取对数即回归模型,由此,回归方程式里的参数都能对应到模型中的参数,此时,回归从一个 reduced-form 变为了 structural-form。
由此可以发现,同样一个对数回归的式子,根据背后假设的多寡和强弱,其实是可以有不同解释的(参考知乎网友:司马懿)
比如,劳动经济学中研究教育投资回报率的决定因素,通常以工资对数为被解释变量,这是从 Mincer 模型推导出来的(参考计量经济学服务中心公众号)
经济理论模型中,某些变量本身就以对数形式存在,则应取对数。 上述这个例子中,如果背后假设的是 CD 生产函数。
为更便于研究,可能会取对数。
比如金融学中常说的 log-return,其实是计算 return 的一种方法(参考知乎网友:三田园)
return
log-return 是常见 的连续时间版,当变化时间 时,
根据 Taylor 展开公式,
使用 log-return 的另一个好处是“可加性”,每个月的收益是每天收益的加总。便于应用中心极限定理和大数定理研究资产的长期走势。
3. How 取对数?
当数据均为正数时,可直接取对数;当数据为非负数据,且有较多 0 时,可
ln(x+1)
,尽可能保留更多的样本;当数据存在负数时,可能需要再看一下数据本身是否存在问题,此时没法直接取对数(参考计量经济学服务中心公众号)Stata 中,
log(·)
和ln(·)
都以自然对数为底。如果要换底,比如log10(·)
表示以 10 为底。
4. 如何解释估计系数?
4.1 取对数意味着什么?
将 在 处 Taylor 展开,
可发现,取对数后的变量的变动(变量对数的变动*100)近似等于变量的百分比变动(增长率)。
4.2 对数-水平模型: 取对数
4.2.1 的解释,考虑度量单位变换
(1) 简单估计
考虑工资方程
估计系数 的解释可从下式中获知:
即每多接受一年教育,工资将增加 。
NB 变量对数的变动*100 近似变量的百分比变动,上式等式左侧 *100,根据度量单位变换相关知识,解释估计系数 时也要 *100。
(2) 精确估计
如果要精确估计 x 变动一单位,y 变动多少,则考虑
(3) 举例
其中,0.083 意味着每多受一年教育将带来小时工资增长 8.3%;而精确估计下,多受一年教育将带来小时工资增长 8.65%。
4.2.2 当 X 为哑变量时
Source: 以下分析根据知乎网友 颢卿 在 在设计计量经济学模型时,怎么判断是否应该对变量取对数? 中的高赞回答整理而得,编排过程中文字略有改动。
知乎网友颢卿以 Angrist and Pischke (Mostly Harmless Econometics: An Empiricists Companion, 2008) 书中的例子说明了当结果变量取对数,解释变量为虚拟变量时,对估计系数的解释。
现在,我们研究这样一个问题 : 年轻的时候上私立学校到底会不会对之后的劳动回报产生影响?
最简单的思路是观察这样一个回归模型:
其中 表示 参加工作之后的工资水平, 等于 1 意味着年轻的时候读私立学校, 0 意味着读公立学校, 则代表了影响工资的经济学家观测不到的其它因素,如个人能力。
上述模型,在“其它变量保持不变的情况下' ,一个年轻时候读私立学校的员工工作之后的收入是:
而一个年轻时候读公立学校的员工参加工作之后的收入是:
模型对于系数 的解释是读公立学校和读私立学校给员工 的收入带来的潜在影响差:
这意味着系数 具备的意义是:
也就是说 : 当找们把输出变量取对数时,所得到的模型估计的结果近似告诉我们相比读公立学校,私立学校对未来收入造成的百分比影响。
4.3 水平-对数模型: 取对数
一个 X 取对数,Y 为百分数的例子
研究学校规模对学生成绩的影响,估计出如下模型(见 Wooldridge 的 Introductory Econometrics,2009,4e,pp.126-128)。
其中, 表示标准化十分制数学测验通过百分比, 年均教师薪资; 平均每千名学生拥有的教职工人数; 表示学校注册人数,用以衡量学校规模。
如何解释-1.29 这一估计系数呢?
NB x 取对数后,要解释为 x 的百分比变动,则意味着解释变量的度量单位乘以 100,则估计系数的解释要除以 100。
可以解释为,学校注册人数每增加 10%,预计数学测验通过率将下降 0.13 个百分点(注意, 为百分比,取值 35.3 则表示 35.3%的学生通过测验)。
4.4 对数-对数模型:常弹性模型
弹性模型在这一例子中已经体现,不再赘述。
表示弹性(参考知乎网友:司马懿)。
5. 总结
由此可以发现,变量是否要取对数,最好立足于对经济理论的理解和或经济问题本身,而不是单纯地“操控数据”(知乎网友 颢卿 )。一旦决定取对数,则要注意对于估计系数的解释发生了变化。
6. 参考资料
知乎问题:在设计计量经济学模型时,怎么判断是否应该对变量取对数? Wooldridge, Jeffrey M. Introductory econometrics: A modern approach. Cengage learning, 2009.