PgSQL · 案例分享 · 从春运抢火车票思考数据库设计

背景

马上春节了, 火车票又到了销售旺季, 一票难求依旧。

抢火车票是很有意思的一个课题，对IT人的智商以及IT系统的健壮性，尤其是数据库的功能和性能都是一种挑战。

为什么这么说呢，我们一起来缕一缕。

一、铁路售票系统的需求

铁路售票系统最基本的需求包括

查询余票、余票统计、购票、车次变化、退票、改签、中转乘车规划 等。

每个需求都有各自的特点，例如

1. 查询余票属于一个高并发的操作，同时需要一定的统计量在里面，需要很强的CPU来支撑实时的查询。

2. 购票则更新的操作居多，需要考虑锁冲突，尽量的让不同的人购买时可并行，或者可以合并多人的购票请求，来减少数据库的更新操作。

3. 中转乘车，当用户需要购买的起点和到达站无票时，需要计算中转的搭乘方案，这个涉及的是数据库的路径规划功能。

我们来逐一分析一下这些需求的特点。

1 查询余票

1. 普通的余票查询需求

你如果要买从北京到上海的火车票，通常会查一下哪些车次还有余票。

查询的过滤条件可能很多，比如

1.1. 源、目的、中转站

1.2. 车次类型（高铁、动车、或者普客）

1.3. 出发日期、时段

1.4. 到达日期、时段

1.5. 席别

1.6. 过滤掉没有余票的车次

输出还要考虑到排序、分页的需求。

查询余票通常不是实时的、或者说不一定是准确的，有可能是分时统计的结果。

即使是实时统计的结果，在高并发的抢票期间，你看到的信息对你来说也许很快就会失效。

2. 查询余票的另一个更高级的需求是路径规划, 自动适配(根据用户输入的中转站点s)

这个功能以前可能没有，但是总有一天会暴露出来，特别是车票很紧张的情况下。

就比如从北京到上海，直达的没有了，系统可以帮你看看转一趟车的，转2趟车的，转N趟车的。（当然，转的越多越复杂）。

从中转这个角度来讲，实际上已经扯上路径规划了。

怎么中转是时间最短的，或者价格最低的，或者中转最少的。（里面还涉及转车的输入要求（比如用户要求在一线城市转车，或者必须要转高铁））。

关于路径规划，可以参考一下pgrouting，已支持多种路径规划算法，同时支持算法的自定义扩展。

简直是居家旅行，杀人灭口的必备良药。

《聊一聊双十一背后的技术 - 物流, 动态路径规划》

设计痛点

通常来说，用户可能会查询很多次，才选到合适日期的合适车次的票。

查询量比较大，春节期间更甚。

余票信息需要统计，查询会耗费较多的CPU, IO。

路径规划，很考验数据库的功能，大多数数据库没有这个功能。

2 余票统计

对于售票系统来说，查询余票实际上是一个统计操作。

统计操作相比键值查询，不但消耗大量的IO还消耗CPU资源。

为了减少实时查询余票的开销，通常会分时进行统计，更新最新的统计信息。

用户查询余票信息时，查到的是统计后的结果。

我们可以看到12306主页的余票大盘数据

设计痛点

余票信息需要统计，查询会耗费较多的CPU,IO。

3 购票

购票相对于查询余票来说，从请求量来分析，比查询请求更少，因为通常来说，用户可能会查询很多次，才选到合适日期的合适车次的票。

但是由于购票是一个写操作，所以设计的关键是降低粒度，减少锁冲突，减少数据扫描量。

另外还需要考虑的是

1. 同一趟车次的同一个座位，在不同的维度可能会被多次售卖

1.1 时间维度，如发车日期

1.2 空间维度，不同的起始站点

2. 票价

票价一般和席别绑定，按区间计费。

另一个需求是尽量的将票卖出去，减少空洞座位。

打个比方，从北京到上海的车，中间经过（天津、徐州、南京、无锡、苏州），如果天津到南京段有人买了，剩下的没有被购买的段应该还可以继续被购买。

设计痛点

1. 为了减少购票系统的写锁冲突，例如同一个座位，尽量不出现因为一个会话在更新它，其他会话需要等待的情况。

（比如A用户买了北京到天津的，B用户买了天津到上海的同一趟车的同一个座位，那么应该设计合理的合并操作（如数据库内核改进）或者从设计上避免锁等待）

4 车次新增、删除、变更

春节来临时、通常需要对某些热门线路增加车次。

及车次的新增、删除和变更需求。

在设计数据库时，应该考虑到这一点。

设计痛点

车次的变更简直是牵一发而动全身，比如余票统计会跟着变化，查询系统也要跟着变化。

还有初始化信息的准备，例如为了加快购票的速度，可能会将车次的数据提前准备好（也许是每个座位一条记录）。

5 对账需求

这个属于对账系统，票可能是经过很多渠道卖出去的，例如支付宝、去哪儿、携程、铁老大的售票窗口、银行的代理窗口、客运机构等等。

这里就涉及到实际的销售信息与资金往来的对账需求。

通常这个操作是隔天延迟对账的。

6 退票、改签需求

退票和改签也是比较常见的需求，特别是现在APP流行起来，退改签都很方便。

这就导致了用户可能会先买好一些，特别是春节期间，用户无法预先知道什么时候请假回家，所以先买几张不同日期的，到时候提前退票或者改签。

改签和退票就涉及到位置回收（对数据库来说也许是UPDATE数据），改签还涉及购票同样的流程。

设计痛点

与购票类似

7 取票

这个就很简单了，就是按照用户ID，查询已购买，未打印的车票。

8 其他需求

票的种类

学生票、团体票、卧铺、站票

这里特别是站票，站票是有上限的，需要控制一趟车的站票人数

站票同样有起点和终点，但是有些用户可能买不到终点的票，会先买一段的，然后补票或者就一直在车上不下车，下车后再补票。

先上车后补票

这个手段极其恶劣，不过很多人都是这么干的，未婚先孕，现在的年轻人啊。。。。

通常会考虑容积率，避免站票太多。

痛点小结

1. 通常来说，用户可能会查询很多次，才选到合适日期的合适车次的票。

查询量比较大，春节期间更甚。

2. 路径规划的需求，帮用户找出（时间最短、行程最短、指定中转站、最廉价、或者站票最少）等条件的中转搭乘路线。

妈妈再也不用担心买不到票啦。

3. 余票信息需要统计，查询会耗费较多的CPU, IO。

4. 为了减少购票系统的写锁冲突，例如同一个座位，尽量不出现因为一个会话在更新它，其他会话需要等待的情况。

5. 车次的变更简直是牵一发而动全身，比如余票统计会跟着变化，查询系统也要跟着变化。

还有初始化信息的准备，例如为了加快购票的速度，可能会将车次的数据提前准备好（也许是每个座位一条记录）。

6. 容积率和站票比例。

综合以上痛点和需求分析，我们在设计时应尽量避免锁等待，避免实时余票查询，同时还要避免席位空洞。

二、PostgreSQL亮点特性

PostgreSQL是全世界最高级的开源数据库，几乎适用于任何场景。

有很多特性是可以用来加快开发效率，满足架构需求的。

针对铁路售票系统，可以用到哪些特性呢？

1. 使用varbit存储每趟车的每个座位途径站点是否已销售。

例如 G1921车次，从北京到上海，途径天津、徐州、南京、苏州。包括起始站，总共6个站点。那么使用6个比特位来表示。

'000000'

如果我要买从天津到徐州的，这个值变更为(下车站的BIT不需要设置)

'010000'

这个位置还可以卖从北京到天津，从徐州到终点的任意站点。

余票统计也很方便，对整个车次根据BIT做聚合计算即可。

统计任意组合站点的余票（北京-天津, 北京-徐州, 北京-南京, 北京-苏州, 北京-上海, 天津-徐州, 天津-南京, ……, 苏州-上海）

count(varbit) returns record

统计指定起始站点的余票（start: 北京, end: 南京；则返回的是北京-南京的余票）

count(varbit, start, end) returns record

以上两个需求，开发对应的聚合函数即可，其实就是一些指定范围的bitand的count操作。

2. 使用数组存储每趟车的起始站点

使用数组来存储，好处是可以使用到数组的GIN索引，快速的检索哪些车次是可以搭乘的。

例如查询从北京到南京的车次。

select 车次 from table where column @> array['北京','南京'];

这条SQL是可以走索引的，效率非常高。

3. skip locked

这个特性是跳过已被锁定的行，比如用户要购买某一趟从北京到南京的车票，其实是一次UPDATE，SET BIT的操作。

但是很可能其他用户也在购买，可能就会出现锁冲突，为了避免这个情况发生，可以skip locked，跳过锁冲突，直接找另一个座位。

select * from table
  where column1='车次号'   -- 指定车次
  and column2='车次日期'   -- 指定发车日期
  -- and mod(pg_backend_pid(),100) = mod(pk,100)   -- 提高并发，如果有多个连接并发的在更新，可以直接分开落到不同的行，但是可能某些pID卖完了，可能会找不到票，建议不要开启这个条件
  and column4='席别'  -- 指定席别
  and getbit(column3, 开始站点位置, 结束站点位置-1) = '0...0'  -- 获取起始位置的BIT位，要求全部为0
  order by column3 desc   -- 这个目的是先把已经卖了散票的的座位拿来卖，也符合铁大哥的思想，尽量把起点和重点的票卖出去，减少空洞
  for update
  skip locked  -- 跳过被锁的行，老牛逼了，不需要锁等待
  limit ?;     -- 要买几张票

4. cursor

如果要查询大量记录，可以使用cursor，减少重复扫描。

5. 路径规划

如果用户选择直达车已经无票了，可以自动计算转一趟，若干趟车的最佳搭乘路线。

选择途径站点即可。

参考一下pgrouting，与物流的动态路径规划需求一致。

《聊一聊双十一背后的技术 - 物流, 动态路径规划》

6. 多核并行计算

开源也支持多核并行计算的，在生成余票统计时，为了提高生成速度，可以将更多的CPU加入进来并行计算，快速得到余票统计。

7. 资源隔离

PostgreSQL为进程模型，所以可以控制每个进程的资源开销，包括(CPU,IOPS,MEMORY,network)，在铁路售票系统中，查询和售票是最关键的需求，使用这种方法，可以在关键时刻保证关键业务有足够的资源，流畅运行。

这个思想和双十一护航也是一样的，在双十一期间，会关掉一些不必要的业务，保证主要业务的资源，以及它们的流畅运行。

8. 分库分表

铁路数据也达到了海量数据的级别，但是还好铁路的数据是比较好分区的，例如按照车次就可以很好的分区。

PostgreSQL的分库分表方案很多，例如plproxy, pgpool-II, pg-xl, pg-xc, citus等等.

9. 递归查询

铁路有非常典型的上下文相关特性，例如一趟车途径N个站点，全国铁路组成了一个很大的铁路网。

递归查询可以根据某一个节点，向上或者向下递归搜索相关的站点。

10. MPP

基于PostgreSQL的MPP产品很多，例如Postgres-XL, Greenplum, Hawq, REDSHIFT, paraccl, 等等。

使用PG可以和这些产品很好的融合，保持语法一致。

降低数据分析的开发成本。

三、数据库设计(伪代码)

1. 列车信息表 :

create table train
(id int primary key, --主键
go_date date, -- 发车日期
train_num name, -- 车次
station text[] -- 途径站点数组
);

2. 位置信息表 :

create table train_sit
(id serial8 primary key, -- 主键
tid int references train (id), --关联列车ID
bno int, -- 车厢或bucket号
sit_level text, -- 席别
sit_no int,  -- 座位号
station_bit varbit  -- 途径站点组成的BIT位信息, 已售站点用1表示, 未售站点用0表示. 购票时设置起点和终点-1, 终点不设置
);

3. 测试数据模型, 1趟火车, 途径14个站点.

insert into train values (1, '2013-01-20', 'D645', array['上海南','嘉兴','杭州南','诸暨','义乌','金华','衢州','上饶','鹰潭','新余','宜春','萍乡','株洲','长沙']);

4. 插入测试数据, 共计200W个车厢或bucket, 每个车厢98个位置.

insert into train_sit values (id, 1, id, '一等座', generate_series(1,98), repeat('0',14)::varbit) from generate_series(1,1000000) t(id);
insert into train_sit values (id, 1, id, '二等座', generate_series(1,98), repeat('0',98)::varbit) from generate_series(1000001,2000000) t(id);

5. 创建取数组中元素位置的函数 (实际生产时可以使用C实现) :

create or replace function array_pos (a anyarray, b anyelement) returns int as $$
declare
  i int;
begin
  for i in 1..array_length(a,1) loop
    if b=a[i] then
      return i;
    end if;
    i := i+1;
  end loop;
  return null;
end;
$$ language plpgsql;

6. 创建购票函数 (伪代码) :

下单，更新

create or replace function buy
(
inout i_train_num name,
inout i_fstation text,
inout i_tstation text,
inout i_go_date date,
inout i_sits int, -- 购买多少张
out o_slevel text,
out o_bucket_no int,
out o_sit_no int,
out o_order_status boolean
)
declare
  vid int[];  

begin  

-- 锁定席位  

open cursor for
select array_agg(id) into vid[] from table
  where column1='车次号'   -- 指定车次
  and column2='车次日期'   -- 指定发车日期
  -- and mod(pg_backend_pid(),100) = mod(pk,100)   -- 提高并发，如果有多个连接并发的在更新，可以直接分开落到不同的行，但是可能某些pID卖完了，可能会找不到票，建议不要开启这个条件
  and column4='席别'  -- 指定席别
  and getbit(column3, 开始站点位置, 结束站点位置-1) = '0...0'  -- 获取起始位置的BIT位，要求全部为0
  order by column3 desc   -- 这个目的是先把已经卖了散票的的座位拿来卖，也符合铁大哥的思想，尽量把起点和重点的票卖出去，减少空洞
  for update
  skip locked  -- 跳过被锁的行，老牛逼了，不需要锁等待
  limit ?;     -- 要买几张票  

  if array_lengty(vid,1)=? then  -- 确保锁定行数与实际需要购票的数量一致   

    -- 购票，更新席别，设置对应BIT=1
    update ... set column3=set_bit(column3, 1, 开始位置, 结束位置) where id = any(vid);
  end if;  

end;
$$ language plpgsql;

测试(old 输出) :

digoal=# select * from buy('D645','杭州南','宜春','2013-01-20', 10);
 i_train_num | i_fstation | i_tstation | i_go_date  | o_slevel | o_bucket_no | o_sit_no | o_order_status
-------------+------------+------------+------------+----------+-------------+----------+----------------
 D645        | 杭州南     | 宜春       | 2013-01-20 | 一等座   |       35356 |        9 | t
(1 row)

7. 余票统计(伪代码)

表结构

create table ? (
 车次
 发车日期
 起点
 到站
 余票
);

统计SQL

select 车次,发车日期,count(varbit, 起点, 到站) from table group by 车次 发车日期;

四、阿里云PostgreSQL varbit, array类型增强介绍

在铁路购票系统中，有几个需求需要用到bit和array的特殊功能。

1. 余票统计

统计指定bit范围=全0的计数

不指定范围，查询任意组合的bit范围全=0的计数

2. 购票

指定bit位置过滤、取出、设置对应的bit值

根据数组值取其位置下标

回顾一下我之前写的两篇文章，也是使用varbit的应用场景，有异曲同工之妙

《基于阿里云 RDS PostgreSQL 打造实时用户画像推荐系统》

《门禁广告销售系统需求剖析与 PostgreSQL数据库实现》

PostgreSQL的bit, array功能已经很强大，阿里云RDS PostgreSQL的bitpack也是用户实际应用中的需求提炼的新功能，大伙一起来给阿里云提需求。

打造属于国人的PostgreSQL.

五、小结

本文从铁路购票系统的需求出发，分析了购票系统的痛点，以及数据库设计时需要注意的事项。

PostgreSQL的10个特性，可以很好的满足铁路购票系统的需求。

1. 照顾到余票查询的实时性、购票的锁竞争、以及分库分表的需求。

2. 购票时，如果是中途票，会尽量选择已售的中途票，减少位置空洞的产生，保证更多的人可以购买到全程票。

3. 使用bit描述了每一个站点是否被售出，不会出现有票不能卖的情况。

时间： 2024-12-02 18:35:12

PgSQL · 案例分享 · 从春运抢火车票思考数据库设计的相关文章

2015春运抢火车票攻略百度卫士抢火车票的方法

1.在电脑中安装一个"百度卫士"然后点击软件中的"抢票宝"然后点击里面的火车那个图标. 2.之后在弹出界面我们必须填写的是12306网站用户名与密码之后点击[登陆]按钮 3.如果我们没有抢过票可以点击[修改抢票设置]如果抢过如下图所示 4.之后就像在12306网站上一样进行购买车票了,选择具体的出发地,到达地,乘车日期,乘车人,期望乘车车次,席别,这些都选好以后再点击[我选好了] 5.之后再点击[一键秒杀]这样我们只要等待票了,如果有就会出来没有就会提示没抢到,我们

PgSQL · 案例分享 · PostgreSQL+HybridDB解决企业TP+AP混合需求

背景随着IT行业在更多的传统行业渗透,我们正逐步的在进入DT时代,让数据发挥价值是企业的真正需求,否则就是一堆废的并且还持续消耗企业人力,财力的数据. 传统企业可能并不像互联网企业一样,有大量的开发人员.有大量的技术储备,通常还是以购买IT软件,或者以外包的形式在存在. 数据的核心 - 数据库,很多传统的行业还在使用传统的数据库. 但是随着IT向更多行业的渗透,数据类型越来越丰富(诸如人像.X光片.声波.指纹.DNA.化学分子.图谱数据.GIS.三维.多维等等-- ),数据越来越多,怎么处理

PgSQL · 案例分享 · 递归收敛优化

背景有一个这样的场景,一张小表A,里面存储了一些ID,大约几百个. (比如说巡逻车辆ID,环卫车辆的ID,公交车,微公交的ID). 另外有一张日志表B,每条记录中的ID是来自前面那张小表的,但不是每个ID都出现在这张日志表中,比如说一天可能只有几十个ID会出现在这个日志表的当天的数据中. (比如车辆的行车轨迹数据,每秒上报轨迹,数据量就非常庞大). 那么我怎么快速的找出今天没有出现的ID呢. (哪些巡逻车辆没有出现在这个片区,是不是偷懒了?哪些环卫车辆没有出行,哪些公交或微公交没有出行)? s

春运抢票大战，人生日历与您并肩前行

日前,中国铁路客户服务中心网站已经发布了2014年春运售票公告,2014年1月16日-2月24日为2014年铁路春运时间.预定旅客列车互联网.电话订票预售期为20天.车站窗口.代售点.自动售票机预售期为18天.春运期间临客车票预售期提前,互联网.电话订票预售期为25天,车站窗口.代售点.自动售票机预售期为23天. 这即将又是一场没有硝烟的回家大战,但不管如何艰难,人生日历都将与您并肩前行.下面小编将与您分享一些春运抢票大战的小贴士. 贴士一: 及时获取铁道部发布的关于春运的最新信息,与己相关的要

人生日历教你如何抢春运临客火车票

从12月23日起,春运第一天的临时列车火车票开始发售了.只要您的乘车区间有加开临时列车,您就可以提前25天先人一步抢到回家的火车票.接下来,小编将告诉您怎样用人生日历抢临客火车票. 第一步,去12306官网首页查询公告,查看您的乘车区间是否有加开临时列车,如"2014年1月17日至1月28日期间每日加开广州东--洛阳 L238/9次临时旅客列车";查到有加开临时列车,就可以直接用人生日历来抢票.如果您觉得查询太麻烦,也可以直接在人生日历订票界面输入乘车区间,选择提前25天的日期,点击查

春运抢票必备：2015年春运火车票抢票攻略

2015年春运火车票抢票攻略更多抢票软件查看:2015春运抢票专题 2015年春运时间:2015年春节是从2月19日,所以,2014年春运时间从2月4日开始,至3月15日结束,共计40天.今年春运农历时间是是2014年腊月十六到2015年正月二十五.自2014年11月28日起,铁路部门将对互联网.电话订票的起售时间进行调整.放票时间点从16个调整为21个,即8:00至18:00期间,每个整点和半点均有新票起售,同时C.D.G字头列车不再单独起售,起售时间与车站保持一致. 各地区起售的具体时间:

商业网站提前30天代抢火车票与12306开抢春运市场

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅昨天,春运临客车票开始在网络上发售.猎豹浏览器和360浏览器均推出新版代抢火车票平台,可提供提前30天免费代抢火车票的服务,商业网站与12306在春运抢票市场的战争正式打响. 记者昨日从金山公司了解到,猎豹浏览器的代购服务是与我要买票网合作搭建的,目前支持抢购所有城市所有车次的车票. 该公司相关人士介绍,12306铁路购票网站是唯一网络出票的

PostgreSQL 与 12306 抢火车票的思考

标签 PostgreSQL , 12306 , 春节 , 一票难求 , 门禁广告 , 数组 , 范围类型 , 抢购 , 排他约束 , 大盘分析 , 广告查询 , 火车票背景马上春节了, 火车票又到了销售旺季, 一票难求依旧. 抢火车票是很有意思的一个课题,对IT人的智商以及IT系统的健壮性,尤其是数据库的功能和性能都是一种挑战. 为什么这么说呢,我们一起来缕一缕. 售票系统的需求铁路售票系统最基本的需求,查询余票.余票统计.购票.车次变化等. 下面分析一下这些需求. 查询余票你如果要买从

Discuz! 论坛推广案例分享：猎豹浏览器送老乡回家过年

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅在论坛上做活动可以说是各大互联网公司最常见的推广方式之一.借论坛平台组织活动,将网友从线上引入线下,能触达更深.更广的用户,达到事半功倍的传播品牌效果.当然,发起论坛活动本身就有很深的学问,其中借助热点事件是最有效的途径之一. 近日,伴随2013春运来临,抢火车票回家过年成为搜索量最高的词汇,一些抢票版浏览器也成了热销品.为了显示"