苏良军 (Liangjun Su) 现任清华大学经济系C. V. Starr讲席教授。他于2004年毕业于加州大学圣迭戈分校 (UC San Diego),指导教授为Halbert White。苏良军教授主要研究领域为计量经济学理论,在非参数估计、面板数据、高维计量等方面造诣颇深,在国内外顶级或主流期刊上发表论文近百篇,仅在计量经济学顶级期刊Journal of Econometrics上发文就达20余篇。在加入清华大学之前,苏良军老师任教于新加坡管理大学,为Lee Kong Chian讲席教授。
苏教授于2020年10月在新葡萄8883官网amg主讲了蒋学模课程Panel Data Econometrics,在课程结束之际,我们很荣幸对苏教授关于治学方法、研究前沿等问题进行了专访。
您的教育背景横跨中国、美国,又于新加坡任教,现在又回到了国内,请问这些不同的环境对您的研究思路和方法有影响吗?回溯您的教育经历,您觉得对自己影响最大的是哪一阶段呢?在您求学的过程中您有哪些学习、研究的方法?
关于教育背景,我觉得每个阶段都有影响,各个阶段不可能是完全分开的,但最有影响的还是在美国读博士的阶段,这个阶段在很大程度上决定了一个人能走多远、能走多好。在博士阶段确定研究方向和研究目标,先是确定了你要选哪个领域、跟哪个导师做,然后你才能确定要做什么、怎么去做。这是一段学习的过程,这个学习过程很重要,为以后的研究打下基础。
读博士的那一阶段很大程度上还是一个摸索的过程,每个人是不一样的,我的经历可能跟Halbert White教授的很多其他学生相似。Halbert White教授是不给我们论文题目的,要我们自己去寻找,这是一个很痛苦的过程,但这个过程做博士的时候经历过了,后面研究就顺利很多。自己选定题目后,导师如果赞同你去做,那就说明这个做出来是有意义的,因为当时自己做学生的时候是“两眼一抹黑”,不知道这个东西做出来能不能发表、有多大意义,但导师站得高、看得远,他知道你做这个东西有没有意义。导师点个头,你就可以放心去做。所以去寻找论文题目,怎么去寻找,这是一个痛苦的过程,也是一个必须经历的过程。如果这个阶段你不做,而是让导师给你题目你再去做,那以后的研究的过程你还要去经历这个痛苦的过程,这个就是我个人的启示了。我觉得怎么去找一个研究的题目的过程是一定要自己去学习的,学习怎么去找题目是一个关键的步骤,这是在培养独立性,科研上面一定要强调独立性,没有自己的独立性就没有自己的东西,不能老是跟在别人后面做东西,大概这个意思。
您在博士阶段是如何找题目的?
找题目是从多方面入手的,这个我记得一清二楚。记得我开始找题目的时候就给我的大师兄——当时康奈尔大学经济系的洪永淼教授——发电子邮件。我就问他他是怎么找自己的论文题目的,他就说你要多泡图书馆。因为当时互联网不怎么发达,要到图书馆翻过去5年甚至过去10年主流计量经济学或者统计学的杂志,看他们发哪些文章,先看标题,看有没有自己感兴趣的,如果自己感兴趣,然后就读摘要,如果真的想做,就读全文。多数文章浏览一遍标题,不感兴趣就跳过去。这个过程要花一两个月,说不定能找到自己感兴趣的题目。当然另一方面也可以多听学术报告,听报告可以让你知道别人在做什么、为什么在做,也就知道学术前沿的东西在哪里。如果自己感兴趣,就看自己能不能跟着做一些东西。
做理论研究的时候一些社会价值不能很及时的体现出来,您怎么看待这个问题?
我们做计量理论研究的,一开始不会特意从社会价值去着手,我们非常看重研究的理论价值。而这时候应用计量学者们经常会成为理论计量通向应用的桥梁。我的一些合作者就是做应用计量的,让理论工具被应用,体现其应用价值和社会价值。
您如何看待数学工具在经济学中的应用?对于想要从事理论计量研究的硕博生有什么数学学习的建议?
数学工具当然是基础了,尤其是计量经济学和微观经济理论,像博弈论,这个对数学的功底的要求是非常高的。中国学生普遍数学基础比较好,所以许多华人在计量与微观经济理论等方面做出了一些成绩。但说到底,数学基础再好,它始终是一种工具,如果你把数学利用好了,那将有利于你的研究,特别是经济学研究。很多华人经济学家做的比较好,一方面靠的是他们的数学功底,另一方面靠的是他们的创造性思维。
如果想要从事理论计量研究,我建议学生在统计系或数学系上一上研究生实分析、概率论、数理统计方面的课,概率论一般是最难的,统计相对而言简单一些,实分析可能在中间。实分析至少听一学期,如果能听两学期最好了,一般第二学期可能讲到泛函分析(Functional analysis)。这些课程至少要旁听,最好能选修,因为选修的时候你才能做作业,并学到更多的东西。如果能听一到两学期的实分析以及一年的概率论,基础就能打牢了,以后做计量理论就能走非常远。
我们知道您常年保持高质量的论文发表,您是如何做到自我驱动的?
我只能说首先你要能坐得了冷板凳,作为一个学者要有一定的专注精神,不能被外界因素随便干扰了,特别是现在外部干扰因素或诱惑太多了。第二个就是对自己的研究要有兴趣,对未知的问题要有好奇心,有了好奇心,你才有动力去搞清楚。第三,要合作与交流,不能一个人闭门造车,因为我们很多研究课题都是从交流沟通中得到的,就知道下一篇论文要做哪些东西。
计量经济学领域最吸引您的地方在哪里?相比于应用统计有什么区别?
我觉得计量经济学是经济学中最接近自然科学的一个领域了,因为他应用了很多数学工具、非常严谨,有一个很好的体系。至于跟其他应用科学相比,比如跟我们相关的统计与计算机领域的机器学习相比,计量经济学有自己独特的地方。计量经济学强调因果关系(Causality)分析,统计里面也讲因果关系, 但不如我们强调的多。因果关系分析背后有很多地方与政策评估有关系,英文里面叫policy evaluation或者program evaluation,这是计量经济学的一大应用领域,这样就把我们这个学科跟其他学科区分开来,但不能说做到绝对区分开来,这基本上是计量经济学的一大功能。它的另外一个主要功能是预测,特别是经济预测,就是说怎么应用时间或面板计量经济学这一套工具做更好的经济预测,统计里面也有预测,但统计里面预测不一定是针对经济问题。这些应用都有实践、应用价值,可以说是计量经济学的社会价值所在。
在构造理论计量模型时,您关注哪些实证问题?
每个人做理论计量研究背后感兴趣的实证问题可能不一样。我自己的理论研究主要试图让计量模型更贴近于现实,比如说我想让我的模型允许不可观测的异质性(Heterogeneity)。异质性经常从微观的角度或横截面的角度出现;如果在时间的角度,我们要允许存在结构变化,就是参数可能随着时间在变。这样,这个模型就相对复杂,某种意义上它也更接近于现实,因为现实中不论是个体还是宏观都有异质性,时间长了,结构也会发生变化。宏观里不管是国家层面还是行业层面,异质性肯定存在,如何让计量模型更好地去捕捉这种异质性,是我们做理论研究需要考虑的问题。现在人们也关注截面数据相依性,即横截面相依(Cross-sectional dependence),这意味着我们现在的模型也要捕捉这种截面相依。诸如此类的,我们关注怎么设计计量的模型使其更好的服务于真实的数据,从而更好地研究现实经济问题。
您在本次的复旦经院蒋学模课程中主讲的是Panel Data Econometrics(面板数据计量经济学)导论,重点讲授了大N小T的情况,那largeN, large T的Panel data计量理论有哪些相关应用呢?未来研究是否会倾向于此?
这不一定。一般来说到底会让N趋向于无穷大,还是T趋向于无穷大,取决于面板数据的性质。如果你的面板数据是微观面板数据,经常是N很大,T很小,那个时候你就需要放在large N,fixed/small T的框架下去工作;对于一些宏观的或金融的面板数据,可能很容易做到large N, large T,那个时候你就要让T趋向于无穷大。我们初步介绍的因子模型中经常需要large N, large T,后面还未介绍的模型包括非线性面板与非平稳面板数据模型。非线性面板里面可以是large N, large T,也可以是large N, fixed T,但非平稳面板经常是large N, large T。因为非平稳面板主要是用于宏观或金融数据的建模分析,如果是月度数据或者季度数据,很容易有几十、上百个观测值,所以自然就large N, large T了。微观数据时间维度上很难有几十或上百个观测值,所以那里面自然是large N, fixed T。
Panel data领域还有哪些问题值得研究?
Panel data领域的问题还有很多,有spatial panel(空间面板),有network model(网络模型),还有三维或更高维的面板数据模型,里面还有许多理论问题有待研究。举例来说,network model是一种面板数据模型的特殊情况,因为你一旦讲network,至少有两个维度,那里面的维度有个体i,个体j,需要额外关注这两个维度之间有没有关联性,i、j自然是两个index,它就是一个特殊的面板,这是面板领域比较前沿的问题。如果network做到dynamic的程度,即dynamic network model(动态网络模型),出现三个index,就自然是一个三维的面板数据模型,此时我们可以考虑如何建模、如何允许不可观测的异质性、结构突变、群组结构等,这些东西相对来说比较前沿了。
那您认为计量经济学跟机器学习领域有什么交叉、可以借鉴的地方吗?
现在各个学科的关系越来越紧密了。我们计量经济学肯定是以统计学为基础的,所以我们学计量之前肯定要学一门统计方面的课,本科的时候至少要学概率论与数理统计,然后研究生如果想做计量理论的话也要学一些研究生水平的数理统计、概率论方面的课程,因为它们是我们的基础。如果没有概率论、数理统计的基础,做计量理论很难走远。至于机器学习,我们现在试图把机器学习的工具引到我们计量经济学领域中。机器学习最早是在计算机科学(CS)那边发展起来的,但CS关注的是一些算法,他们不太关注统计量的大样本性质。统计学者进来了,他们根据机器学习里面的算法去搞清楚相关统计量的误差界限(Error bound)性质。统计学者可能更为关注的是相关性的研究,因为有了相关性,就可以去做预测了。计量的人进来之后可能关注更多的一些问题,包括如何做统计推断。一旦要做统计推断,包括后续的政策分析、因果分析之类的就需要我们搞清楚估计量的分布理论,所以这是一点点过来的。现在我的很多研究就是与机器学习紧密相关,有很多算法还是计算机科学那边的,但我们现在在发展背后的统计推断理论。当然,机器学习对现代计量的影响是比较深远的,我们已经从机器学习里面借鉴一些新的方法,包括LASSO、clustering analysis(聚类分析)、deep learning(深度学习)等,它们已经被证明在计量经济学里极其有用。如前所述,计量还关心另一层面的问题。因为机器学习没有办法告诉你因果关系,计量的人可能既使用大数据又使用机器学习——因为机器学习跟大数据紧密相连——然后从中找出因果关系来,只有找出因果关系才能做一些后续的政策建议(Policy recommendation)之类的研究,也就是到底是谁造成谁,这就是我们计量的一个核心的问题了,特别是微观计量的一个核心问题。
在当今大数据时代,请问您认为未来理论计量研究的方向是什么?
不同的人对于这个问题肯定会有不同的答案。我觉得我们现在生活在一个大数据时代,身边每个人都在讲大数据、讲人工智能这套东西,所以我们深受影响。因此,怎么从人工智能、机器学习借鉴一些研究工具,发展我们新的理论计量模型,是我比较关注的一个问题,也是计量经济学界的一个大问题。在这个大的框架下面,再考虑一些具体的问题。从机器学习、人工智能中借鉴工具,发展新的计量模型,主要的目的还是研究我们计量经济里面关心的问题,最后还是要服务于社会。所谓服务于社会,最终目的还是更好地做因果推断、政策分析、经济预测,这些是根植于社会的,计量的社会价值就体现出来了。
我来举几个简单的值得研究的问题。第一个,宏观经济变量之间有着错综复杂的关系,如何利用宏观数据对它们的相互关系进行建模,这是计量经济学里的一个经典问题,但是现在基于大数据出现了一些新的工具,我想新的工具在这方面可以帮助我们进行宏观数据复杂关系的建模及预测。这里大家主要关心宏观数据的预测,但也可以关注与政策相关的研究,即policy implications。第二个,非结构化的数据是大数据里面经常出现的类型,我们现在有很多各种各样的网络数据,包括一些地图化的数据和一些视频化的数据,这些数据都是非结构化的、非数字化的数据。从这些数据里面提取信息,怎么对这些数据进行建模,分析你感兴趣的经济问题,这也是一个难点。当然现在也有一些人在做一些基础工作了。还有一些是计量里面已经有的数理工具了,比如时空数据、网络数据以及多维数据模型。我们面板数据只讲了两维的,而面板数据也可以是三维的、四维的。如何对时空、网络、多维面板数据进行建模、预测,然后根据他们的结果也可以做一些政策评估,这些东西都是我们在考虑的问题,我跟我的合作者非常关注这方面的问题。最后我想强调的是如何使用大数据进行政策评估。政策评估方面的分析以及运用大数据进行经济预测,都是值得研究的。我们可以讲一些更广泛的概念,因为这里面涉及到微观的政策评估分析的一些理论、方法,比如微观里面的matching(匹配)、RDD(断点回归设计)、DID(双重差分法),都是与微观计量的因果效应分析与政策评估紧密相连的工具,偏宏观的有synthetic control(合成控制),也可以用来估计处置效应或做政策评估。在大数据时代,我们怎么利用大数据做这些相关的研究是一个非常重要的课题,必定会有越来越多的研究文章出现在这个领域。
总的来说,许多问题还是老的问题,有些方法还是老的方法,但是就是因为出现了新的数据,怎么把老的方法发扬光大,与新的数据结构相结合,这却是一个新的问题。
您在理论计量方面有哪些推荐书目?
首先是理论计量方面的经典教科书,Fumio Hayashi的Econometrics,这本教材非常经典。传统计量理论方面的书推荐两本,一本是Halbert White的Asymptotic Theory for Econometricians,另外一本是James Davidson的Stochastic Limit Theory。这两本书是经典的参考书,博士一年级就可以读。这两本书读完了,相当于理论计量的钥匙拿到了,比较传统的计量工具也就具备了。另外再推荐两本更现代的书。一本书是2019年才出版的,书名是High-Dimensional Statistics,是UC Berkeley的Martin Wainwright教授写的。作者是统计方面的大牛,他现在做了很多跟大数据有关的研究,他可以说既是统计学家,又有计算机科学的背景。这本书比较前沿高深,适合在博士二年级的时候读。还有另外一本书是Statistics for High-Dimensional Data,也是两个统计学家写的。现在计量经济学跟统计学都在向高维、大数据靠拢,最前沿的工具在这两本书多有涉及。
参考书目:
1. Hayashi, F. (2000).Econometrics. Princeton University Press.
2. White, H. (2001).Asymptotic theory for econometricians(Rev. ed).Academic Press.
3. Davidson,J. (1994).Stochastic limit theory: An introduction for econometricians. Oxford University Press.
4. Wainwright,M. (2019).High-dimensional statistics: A non-asymptotic viewpoint. Cambridge University Press.
5. Bühlmann,P., & van de Geer, S. (2011).Statistics for high-dimensional data:Methods, theory and applications. Springer.
本期记者:高尚,新葡萄8883官网amg博士研究生