一条数据狗的上海房价研究

疯狂的春天

年初上海的房价一夜沸腾,到处都是月上涨百万的房子和日跳价十万的交易,以及人满为患的房地产交易中心。上月某日我打开滴滴快车,刚输入虹口,居然发现自动补出'虹口区房地产交易中心', 而且排名第一...

数据狗的俺自然去找分析报告了。但然而看起来大多有关地产的数据分析都比较宏观,比如整个深圳的库存和买卖的关系,银行的政策和股市的兴衰对房价的影响,各个城市的房价和收入比如何, 等等。

作为一个小市民,俺的问题就是那么直白: 哪里涨的快?! 有没有更性感一点的回答呢?

先放个去年上海的房价增长地图

<!-- 总体,我觉得预测未来很难,房子能涨多少,和金融政策、地产政策、未来规划都有关。对于政策,也许每任领导有各自的思路。分析过去,分析现在还是有用的? -->

技术准备

有许多房价网站,有些乱的就像论坛,信息杂糅,也有些虚假繁荣,重复率很高,比如一套房子都能出现好几次,还有很多已经关闭的交易仍然挂在网上,价格还是n年前的。

链家和搜房数据相对准确一些,但链家只做精做深一线城市,且早几年的数据不多,也没缺少租房数据(旧主页有丁丁租房的连接)。相比搜房网是历史久远的老牌网站,积淀多,但传说做低房价,数据不准,而且网站的组织比链家乱一些。

俺用node.js写了个爬虫框架,开始搜房和链家的数据之旅。

对于房子,宏观而言,至少分为2个大的对象,一是小区,二是房源。一个小区有很多户型,高低、面积、户型、类型甚至年代各不相同,房源则涉及到具体的交易(当然复杂的情况下,一个房源在不同的时间能有多次交易)。每次交易有很多细节的信息,甚至细到最后一次看房的时间,一个月内看房的次数等等,但亲身经历告诉我,这些很细的指标有时也少登记漏登记,准性没那么高。

细的也不多谈了,总之经过多次爬取或清洗,我的数据库里存了几张表,比如链家网的表有两张:

小区表: 小区名字,经纬度,边界信息,建成年代,物业公司,开发商,绿化率,容积率,楼房数,房间数,12个月的房价变化等。

交易表: 所属小区,总价,均价,面积,户型,楼层,房龄,装修,七天里多少人看过,历史上度少人看过,已经完成 & 历史上交易时间等。

提前说一嘴,链家和搜房的数据是有所滞后的,正在交易的房子,很多已是过去的价格了,而已成交的房子,成交的时间要倒退几个月才是发生交易的价格,何况为了避税,很多人在签署交易价格的时候会做低房价。

2000万上海人有多少套房子?

从链家爬取的小区信息非常详细,包括每个小区楼房的数量和房间的数量,其实搜房也有这些指标,估摸是从政府拿到的,因为即使某个小区没有交易,这个小区的数据都还有,从这个数据,我count了上海房间总量,约600万左右,上海的人口是2000万,平均3点几个人是能有一栋房子的。

这应该比较符合直觉吧,三口之家都应该有房,只不过有些人有几套房子,而有些人挤隔板房。

政策的影子

所有正在交易的的房子里,89平的房子离奇的多,这是为啥呢?

这个答案很简单,有一个政策是: 90平米以下契税征收为1%,90平米--144平米契税为1.5%。144平米以上为3%,所以地产公司肯定料到,愿意住90平和144平以上一点点的的人,肯定愿意为了避税,忍忍住小一点的房。所以,这就是这个曲线的中间和右边的有两个峰值的原因,而40-50平还有个峰值,老房子的标准大小就是这样。

此外,这个政策出现在2006年,诨名『7090政策』,当年政府出来抑制房价上涨定的(2006年恰好也是近年来商品房建成最多的一年)。为了验证这个,我们列一下2006年之前房屋面积的分布(还是有几个小波峰,毕竟数据取自正在交易的房源,并非全量的房子,所以契税政策还是会对交易政策产生一定的影响):

高房价的本质

在知乎上众多回答里,我很感兴趣的是这个答案 中国楼市房价是否会崩溃?何时崩溃 莫名的回答

复述一下,美国是一个州和州制度差异很大的地方,在不同的地区不同的制度,演化出了不同的房价。有研究对美国、澳州26个房价超高的城市的研究表明,其中有23个都有严格的“可持续发展”法案,比如旧金山湾区,5 / 6的土地是不能开发的,这么整,房价怎么会不高。

而一些城市,比如Houston,全美第4大城市,收入很高,但房价却是美国前15的低, 有钱并没有说明房价一定高。

我认同,供求关系才是王道。

看看我们的国家呗,这里是上海,我们的数据也可以反推这一点,因为每个小区都有建成的年代和内含的楼房数和房间数,我们把近30年来按照年代进行累加,得到下图了。

整个曲线横跨1900年-2017年,没错,房子的建成年代还有2017年,因为链家已经把一些期房也考虑在里面了。

06年以后,楼房的建设量一路往下走,13年之后,转向更加剧烈的下滑。

事实上,这段时间里,上海的人口也日趋饱和,直到去年出现负增长。有意思的是,知乎上还有答案从多角度论证上海市人口确实下跌。但房屋供应下降的更快,供需关系还是那么强烈。在这个过程中,政府用压低土地出让量小心翼翼地维持着高房价。

这个曲线还有个问题,1994年建成房屋量超过了之后的任何时候。为什么?直到俺问了地产行业的学弟虾米皮同学才恍然大悟。1993年是全国性的房产热。那时候全国都掀起了盖房的热潮,而很多房子了94年房价下跌和调控的时候才刚刚建成。

最昂贵的房子在哪里

感觉里,上海的发展比较分散,杨浦、徐汇、黄浦、浦东都有很多繁华的地段,各为中心。然而如果关注到均价十万以上的近百个小区(别墅),这些点却基本排列在一条东西走向的直线上, 西起佘山,路过西郊宾馆一带(如檀宫),最多的分布是在徐家汇的老洋房(还记得陈良宇当年的马勒别墅么),然后穿过静安区和黄浦区,浦东五道口周边,最后一直到世纪公园周围。

如果我们把低于十万/平的房子去掉,这个线更加明显。

对此,我忽然产生了一个猜测,上海十三五规划,提到大力发展虹桥以西的地区,目前涨的也比较厉害,那这条最昂贵的线会不会一路向西,继续填补版图上的空白呢?

哪里的房子最好卖

贵的房子不一定好卖,有些房子有价无市。比如北京的胡同和上海的洋房,动辄上亿不是谁都买的起,中产阶级才是消费主力,他们决定了消费的高峰。

在搜房的数据里,对每个小区,有成交次数一项,因此我们可以看哪些盘买卖最多。

相对于高价房,交易量大的区域比较分散,比如莘庄、三林,之中也包含一些很贵的区域,比如新天地周边的(不幸的是,看链家今年的数据,去年基本没涨幅)

租房客在哪里

好租的房子明显又是另一道风景,掏空了市区点亮了郊区。

大部分亮点,都比较容易看到逻辑,比如张江园区附近的,上海交大附近的,浦东五道口附近的,松江大学城附近的,等等。

我想到的原因也比较明显,第一是,小区大了,出租肯定就多,大小区当然郊区多,二是人口聚居地普遍在郊区,学校和大公司,现在都往郊区迁。

相信大家更关注房子涨价的逻辑。

7w左右的房子涨的快

许多人说,房价越贵,涨得越快。在收藏品、奢侈品上也是如此。

俺屌丝:去你丫的,匡我呢!买实惠点的不好么,1w5一平的房子能亏么?投资风险小啊!

然而,当我把上海市目前的房价按照1000分段,和在过去一年的上涨幅度画成这么张图的时候,这个道理多少是对的,而且关系很明显:

在上海,去年买今年7万左右的房子是涨幅最快的,但过了7万/平,这个收益就开始回落了。此外,我把交易总量也用灰线画出来了,毕竟交易量很少的时候,可能一两笔不正常的交易会影响平均价格。

对于这种情况,我是这么理解的:

对于去年9月以来的房价涨价,多少是房屋置换引起的,所以300w以上的交易量很大。而卖掉的房子能套出很多现金,因此人们会利用30%的杠杆去买一套更大的房子,而他们能把握的现金决定了大部分人决定了房屋的大小和价格,以至于下面一段分析:

买市中心的房子好吗?

那么,是不是地段越好,涨得越快呢?我把所有小区对了经纬度,画在地图上。由于去年上涨普遍比较凶猛,我以20%为界限,没有到这个涨幅的,都标记成蓝色,超过的是红色,红色越大上涨越多,蓝色越大下跌越多。

我们看到,有几个区域比较明显,比如浦东陆家嘴及东、莘庄和七宝、青浦徐泾、普陀真如、杨浦新江湾城、宝山宝杨码头附近。

我放大两个图,第一个是浦东陆家嘴周边,很有意思,陆家嘴的房子普遍涨了,但最好的江畔地段明显涨价一般,而靠近东边的地段却涨势汹汹,而这些房子,价格就在刚才提到的6-7万左右。

所以,总体上,就去年而言,不适合买最好的地段,估值已经太高,退而求其次,周边的地方涨幅倒是还不错,我个人的猜测还包括了上面一段的观点: 大部分改善型的置换,大家提供的资金也只能支持买市区但并不是最核心区域的房子。

开发商们,买谁家房子好

看这看那,房子tm太难选了,不过,房子是不是也有名牌效应呢,选了哪家造的房子,成功率就高一点呢?总有良心开发商选更好的地,造更好的楼,相对更低廉的价格。

因此,这里统计了所有开发公司在上海的项目去年的平均涨幅。

不过真实的数据是,排在最前沿的都是在沪只有1-2个项目的公司,总让人感觉这是运气好的缘故,所以,我又加了一个条件,在沪必须开发过超过8个项目。

看完这个图,你会吃惊吗,很少听过名字的两家宝山打头的企业,稳居房价涨幅榜的魁首,秒杀万科、大华、绿地这样的大开发商。

如果我们回忆一下房屋增长地图,宝杨码头附近的区域也是非常厉害的,居于上海的前列。

直到一位地产公司的学弟一语道破:

去年宝钢搬出上海呀...

没错,当你搜索宝钢,很多网点就在宝杨码头附近,而这就是宝山房价涨的最凶的区域,这片区域的房子也是这几个开发商建设的。

老房子还是新房子好

曾经住在老小区,周围都是一群闲散的大爷大妈,每天出门,都有一种重返90年代或者提前32年后俺退休的感觉,无时不刻,我都想逃离这里。

所以,俺的概念里,新小区必须比老小区居住舒适,价格昂贵,增值潜力大.....

数据好像残忍地否定了我。

首先看均价和小区建成年代的关系,这个关系真是亮瞎了我的狗眼,房子越老,价格越高...

我只能这么理解这件事了,城市扩张,越老的房子越位于城市的中心,在历史的进程中,拆迁办大浪淘沙,留下并在交易的老房子本身质量就就是老房子里比较好的,特别是解放前的...

去年一年的增长情况,也并没有体现出新房子的绝对优势,这条线好像是平的:

暂停键

好了,这篇就写那么多了。用数据粗粗地扫了眼上海的楼市,很多也就是印证了常识:

比如,房价取决于政策,并不是市场经济完全能决定的。

比如,去年买5w左右的房子涨价最凶,你不要买最核心地段也不要买偏远地段,买个比较贵的就可以了。

比如,有些事件很重要,宝钢搬迁对房价的提升非常迅猛,搞得上海东北角各种指标一路往上走。

比如,房子真是个错综复杂的决策过程,有时候单独的维度很难说明问题,比如房子的新旧。

可是,去年已经过去了,我再怎么分析,也是历史回放,知道了又怎么样,今年涨的快明年难道也涨的快么,你知道么亲?

再者,每个人都有自己的限制,房子不是想买就买的商品:

比如我tm只有30w首付,你给我说400w房子涨价快这不是挑逗我么...

比如我公司在闵行区,你说半个上海外的宝杨码头的房子涨的快...

轮到俺卖关子了,看看下一步的探索能不能帮你解决一些问题呢

时间: 2024-08-03 19:46:44

一条数据狗的上海房价研究的相关文章

数据狗的杭州房价研究

漫长的等待 09-10年,杭州的房价轰轰烈烈,09一年, 杭州出让土地获得收入1200亿元,相当于当年度预期内财政收入的一倍左右,超过北上广深四大一线城市成为全国最高.当年许多楼盘确实几乎翻了一倍,成为有房的大爷大妈最快乐的谈资. 那年我拿着千把块工资,怀着屌丝愤世嫉俗的心态,读着高晓松的<不买房,买梦想>, 心想这房价tm到头了,机会早tm没了,不买才tm对的!虽然后来几年,当我用同样酸爽的心态丈量北京和上海的房价被煽了无数巴掌,可杭州的房价确实不紧不慢地躺了许多年. 09年的历史还会重演吗

数据泄漏报告:2016年共泄露14亿条数据

本文讲的是数据泄漏报告:2016年共泄露14亿条数据, 根据数字安全研究公司金雅拓(Gemalto)最新发布的2016年数据泄露水平指数(Breach Level Index)报告显示,2016年发生了约1800次数据泄露事件,造成约14亿条记录泄漏.这一结果几乎是前一年的两倍,这表明不管是网络攻击者还是意外的数据泄漏和内部恶意人员的威胁正在不断增加. 2016年的数据泄漏事件中涉及的个人信息包括姓名.电子邮件地址.密码.出生日期.IP地址甚至物理识别数据等. 2016年数据泄漏总量为去年的两倍

上海房价为何再度领涨全国我友网成为助推因素

近日,有关部门发布全国房地产相关数据,其中上海房价再度逆势上涨并领涨全国,再度引起举国关注.同时另一组数据也引起公众的广泛关注,那就是在7月份,上海房产 成交量上涨70%,从中可以看出上海房产投资者目前普遍存在"追涨不追跌"心理,同时对房产后市进一步看好.可以预计的是,目前上海房产价格的上涨趋势还将持续一段时间,这一趋势在近期迎入知名网站我友网的上海嘉定区更为明显 针对目前上海房产的领涨局面,相关地产人士分析,主要是有三大因素助推所至 中国经济长期被看好 对于中国未来一段时间内的经济走

再建一个新型“枢纽港”——“大数据时代的上海机遇”

"大数据(BigData)",从一个海外生词变成了国内热词.其中,两个大数据经典案例被津津乐道:其一,谷歌公司利用海量搜索数据,成功预测2013年美国流感暴发:其二,微软公司通过大数据分析处理,对新一届奥斯卡金像奖作出"预言",结果除"最佳导演"外,其余13项大奖全部命中.一时间,人们对各类大数据应用畅想纷纷,那么身处大数据时代的上海,可以有何作为? 数据富矿:沉睡还是说话 信息爆炸时代,"数据矿藏"已极其富饶,问题是让它们永

[转载] 黄志敏:一条数据新闻是如何用7步生产出来的?

PS:文章主要转载自36大数据的文章:           http://www.36dsj.com/archives/33280      最近同学找工作,在百度搜索引擎面试时就被问到"一条新闻是如何被发现的呢?"我能想到就是实时性,某段时间内突然关注的词汇可能是新闻,再或则是通过模板打分判断.      下面这篇文章就详细讲述了一条数据新闻是如何产生的?遗憾的是没有论述如何探索一条信息是有价值的新闻.但同样希望对你有所帮助,尤其是从事搜索引擎.信息挖掘相关的专业或面试的同学. 9月

数据狗怎么恢复格式化的硬盘

  第一步:打开您电脑中的数据狗数据恢复软件,进入软件主界面,选择"误格式化恢复"模式,如下图所示 第二步:在区域1内选中被格式化的磁盘,点击区域2的确定键,进入数据恢复进度条. 第三步:等待数据扫描进度条到达100%,如下图所示. 第四步:待扫描完成后,软件自动进入"恢复文件选择界面",如下图所示.如果您想要恢复移动硬盘里的所有资料,那么请在区域1内的菜单栏中选中所有文件夹;如果您只需要恢复移动硬盘里的部分资料,您可以在区域1内选中您需要恢复的文件原存放的文件夹,

数据狗深度恢复功能使用教程

  第一步:打开您电脑中的数据狗数据恢复软件,进入软件主界面,选择"深度恢复"模式,如下图所示. 第二步:如下图所示,在区域1内选中被需要扫描的磁盘,点击区域2的确定键,进入数据恢复进度条. 第三步:等待数据扫描进度条到达100%,如下图所示,由于深度恢复需要搜索每一个扇区,因此速度较慢,请耐心等待. 第四步:待扫描完成后,软件自动进入"恢复文件选择界面",如下图所示.深度恢复模式下,搜索到的文件将会按照文件类型排列.您可以在区域1内选中您需要恢复的文件类型的文件夹

数据狗恢复SD卡误删照片教程

  第一步:打开您电脑中的数据狗数据恢复软件,进入软件主界面,选择"误删除恢复"模式,如下图所示. 第二步:在区域1内选中SD卡,点击区域2的确定键,进入数据恢复进度条. 第三步:等待数据扫描进度条到达100%,如下图所示. 第四步:待扫描完成后,软件自动进入"恢复文件选择界面",如下图所示.在区域1内选中您需要恢复的照片原存放的文件夹,然后在区域2内找到并选中您需要恢复的照片,您也可以尝试使用区域5内的搜索功能,直接将您需要的照片显示在区域2内(当然一般SD卡里的

具体函数-急,求解 .. 表中有一个关键词字段,现有1000条数据,关键词中不重复的词语。

问题描述 急,求解 .. 表中有一个关键词字段,现有1000条数据,关键词中不重复的词语. 1.mysql数据库中有一张表,现有1000条数据.表中有一个关键词字段,每个关键词都是由多个词组成的数组.用"|"或","或用空格分开的.现在要求得到所有关键词中不重复的词语. 例:关键词:01. 辽宁|上海|中国|国际,亚洲,欧洲 02. 辽宁,中国,天津,山东 结果:辽宁 上海 中国 国际 亚洲 欧洲 天津 山东 数据:数据库名字:qwer 表名:qaz 数据条数:10