大数据的特点之一是海量数据积累而导致传统的经济计量和统计技术无用武之地。笔者预测,这种大数据现象终将会有一天改变房地产经济学的运作。
房屋估价模型被用在很多方面,比如很多城市和郡县都采用“群评估”(Mass appraisals),这样房屋价格指数就会把价格变化和质量变化区分开来。当诸如 Zillow 这样的房地产公司生成像Zestimates 这样的房屋评估软件时,他们也是依据这些模型。
这也是劳工部统计局计算 CPI 时,由房屋质量变化和折旧而调整房屋租金的方法。
这些模型的一般形式是把价格记录作为因变量(dependent variable),房屋和所在社区作为独立变量(independent variable)。但通常可用的独立变量只是提供了一个相对有限的描述。不同的数据源采用不同的独立变量清单,通常用到的会有:房屋建筑面积,占地面积,楼层数,卧室数量,卫生间数量,是否有中央空调,壁炉数目,车库大小,地下室是否完成,当然还有地址。利用这最后的变量(地址),你可以从其他数据源获取有关附近小区更大量的信息。
以上是许多房屋估价模型需要处理的基本因素,听起来并不像有很多信息,但在很多情况下,你可以凭这样有限的信息来解释房价的巨大变化。实际上,单单以所在社区和房屋面积为指标已经可以解释很大部分的房价变化。然而,即便是 80%的房价变化可以被解释,还是20%无法用这些变量解释。我们直觉地感到在上述变量之外还有大量信息被我们遗漏了,这就是笔者所认为的会改变未来的人们所说的“智能住宅”(“smart homes”)。
现今市场上有各种各样的“智能住宅”的产品了,但这些产品发展将越来越细分化。当今的自动吸尘器(Roombas)只是在房间里漫无目的地工作,但另有一些机器人吸尘器会先对房间进行扫描并制定一套计划。谷歌最近收购的 Nest 智能恒温器会记录你什么时间在房间的什么位置。这很容易想象未来的发展趋势:机器人吸尘器将会知道每一个房间的尺寸,地板的类型,甚至可能还有地板的质量和年龄;智能电视知道哪个房间是客厅;Nest 会知道哪个房间是厨房,哪些是卧室,而这个家的节能情况。Nest 更进一步还可以测量这座房子被充分利用的程度,并由此分析这座房子的布局是否合理;换句话说,是一个房子的的主人使用度(Walkscore)评分系统 。
而这仅仅是智能家居会带来的信息,此外还有一整套其他来自所在社区的高维数据。这些数据包括跟踪骑自行车和跑步的道路,坑洼计数,测量社区设施的地点和质量,像真正的使用度评分(Walkscore)那样,等等。这提供了更广泛的数据,并且具有更高的空间和时间维度。其中的一些东西已被纳入分析(参见艾米丽华盛顿(Emily Washington)和伊莱蒙多拉多(Eli Dourado)关于Walkscore 的示例研究),但要做到把大量有关房屋和社区的高维数据纳入房屋价格模型,我们还有很长的路要走。
总之,你可以想象非常非常宽的高维数据集的产生。你将怎样利用这些“知道”你房子的高度细节的数据集?突然间变量的选择成为重要的挑战,并且经济理论很难提供相关指导。
利用主成分分析来从几个变量创建的“房子质量”的评估措施在房地产经济学中并不是新概念,但将机器学习(Machine Learning)引入评估模型我们才刚刚开始,还并没有真正捕捉到潜在的高度非线性和这些变量之间的关系的互动性。
高频率和高维度数据集将会改变大量迄今为止尚为简单的研究模型,刚刚开始步入学术生涯的研究人员们绝对应该关注机器学习工具并预期数据时代令人兴奋的未来。
原文发布时间为:2014-05-25