Cassandra数据模型设计最佳实践(一)

本文是Cassandra数据模型设计第一篇(全两篇),该系列文章包含了eBay使用Cassandra数据模型设 计的一些实践。其中一些最佳实践我们是通过社区学到的,有些对我们来说也是新知识,还有一些仍然 具有争议性,可能在要通过进一步的实践才能从中获益。

本文中,我将会讲解一些基本的实践以 及一个详细的例子。即使你不了解Cassandra,也应该能理解下面大多数内容。

说说Cassandra在 ebay的使用情况

我们尝试使用Cassandra已经超过1年时间了。Cassandra现在正在服务一些用例 ,涉及到的业务从大量写操作的日志记录和跟踪,到一些混合工作。其中一项服务是我们的“Social Signal”项目,支撑着ebay的pruduct pages里like/own/want特性。我们开发的一些用例已经上线运行 ,但更多的还是处于开发阶段。

我们的Cassandra集群规模并不庞大,但正在稳步的增长中。在 过去几个月里,我们共部署了几十个节点,它们分布在几个跨机房的小型集群中。你可能会问,为什么 要多个集群?我们通过的职能部门和业务来划分集群。相同职能部门的相同业务的用例共享一个集群, 但它们存在于不同的keyspaces中。

RedLaser, Hunch和其它ebay的合作伙伴也在尝试cassandra 解决现实中各种问题。除了Cassandra,我们也在使用MongoDB和Hbase,本文中我不会讨论它们,但我相 信它们都有各自的优点。

我相信此时你一定有很多问题,在 这篇文章里暂时不会一一说明。在即将到来的Cassandra Summit大会,我将更详细的讲解我们每个用例 场景,数据模型和多数据中心部署,以及经验教训和其它知识。

本文重点讲述我们在ebay应用的 Cassandra数据模型设计最佳实践。下面让我们先看看这系列文章会用到的一些术语。

术语和约 定

术语“Column Name” 和 “Column Key”被认为是一样的。同样的,“Super Column Name” 和 “ Super Column Key”也认为是相同的。

下图表示一个 Column Family (简称CF)中的一个row

下图表示一个 Super Column Family (简称SCF)中的一个row

时间: 2024-08-30 11:56:29

Cassandra数据模型设计最佳实践(一)的相关文章

OLTP类系统数据结转最佳实践

本文着重介绍了京东数据结转平台的技术架构,及OLTP类系统数据结转最佳实践,探讨解决大数据背景下的数据结转问题. 一. 背景介绍 业务系统在长期运行的过程中会积累大量的数据,这些数据有些是需要长期保存的,例如一些订单数据,有些只需要短期保存,例如一些日志信息.业务数据一般都会有一个生命周期,生命周期内的我们叫生产数据,生命周期之外(即业务已经关闭)的叫历史数据,我们这里提到的数据结转,指的是将需要长期保存的历史数据从生产库迁移到历史库(转),而将需要短期保存的数据定期删除(结). 我们已经进入了

2017年度TOP 10大数据应用最佳实践 案例征集活动最新启动

2017年5月18日上午,CCF大数据专家委员会召开新闻会,正式发布和启动了"2017年度TOP10大数据应用最佳实践案例征集"活动. CCF大数据专家委员会副秘书长.北京启明星辰信息技术有限公司首席战略官潘柱廷(左),中国科学院计算技术研究所副研究员查礼(右) 发布会上,CCF大数据专家委员会副秘书长.北京启明星辰信息技术有限公司首席战略官潘柱廷,中国科学院计算技术研究所副研究员查礼代表活动发起方,向现场数十家记者阐述了2017年大数据技术发展的现状及未来趋势,并就本次最佳实践案例征

优云软件数据专家最佳实践:数据挖掘与运维分析

这份研究报告,作者是优云软件数据专家陈是维,在耗时1年时间制作的一份最佳实践,今天和大家分享下,关于<数据采矿和运维分析>,共同探讨~ 数据挖掘(Data Mining)是从大量数据中提取或"挖掘"知识. 广义数据挖掘:数据挖掘是从存放在数据库.数据仓库或其它信息库中的大量数据挖掘有趣知识的过程. 数据挖掘技术侧重:1)概率与数理统计 2)数据库技术 3)人工智能技术 4)机器学习. 1. 数据清理:消除噪音或不一致数据 2. 数据集成:多种数据源可以组合在一起 3. 数据

艾特网能创新节能技术再获大奖 引领绿色数据中心最佳实践

由中国电子节能技术协会主办,数据中心节能技术委员会和香港雅式展览集团联合承办的"2016中国数据中心节能技术大会"于2016年11月16日在北京新世纪日航饭店圆满举办.会议展示了国内数据中心行业节能技术创新成果,并邀请业内顶级专家解读国家政策.新标准.新技术.新应用.节能改造新思路等方面的内容,分享数据中心的节能技术趋势和实践经验. 艾特网能多项数据中心创新节能技术亮相 深圳市艾特网能技术有限公司(以下简称:艾特网能),作为数据中心基础设施完整解决方案的优秀民族品牌专业厂商,受邀参加此

云箱科技符全:数据中心最佳实践

云箱科技符全:非常感谢今天有这么多嘉宾来云基地参观,首先我代表云基地,代表天地云箱科技有限公司,向大家表示热烈的欢迎.今天主会场的会讲的是云计算,但是云计算里面我们很多人都在讲数据中心,为什么联系这么密切,大家肯定有多人做云计算,也有很多做数据中心的人,这两个行业的联系,在美国就是一个特别的明显例子.去年的统计,美国去年用电量,2%是用在IT设备上,所以云计算规模不断扩大的时候,他对于数据和耗电需求是特别大,去年IT行业90%的数据都是在这三两年产生的.到了云计算大家很多人也用微博.人人网,或者

简析十大云部署最佳实践

根据IT业贸易协会CompTIA的报告显示,如今,有80%的企业都声称在使用某种形式的云解决方案,这些方案既有可以按需启用的虚拟机,也有很容易购买.很容易使用的应用." 趋势科技客户解决方案部经理Laura Maio认为,目前有三大重要趋势在推动着云的使用和部署. 第一趋势是企业将公有云作为其内部环境的一种自然延伸. 第二趋势则是企业的非IT业务部门利用公有云可以更快捷地访问服务器和存储资源. 第三,企业的IT部门本身也有压力,需要构建安全的.功能类似公有云的私有云环境,以便从公有云提供商那里重

数据产品经理最佳实践-数据战略规划

一.前言 到目前为止,取得这样的成果,我总结了一条经验:就是预先要把事情想清楚,把战略目的.步骤,尤其是出了问题如何应对,一步步一层层都想清楚:要有系统地想,这不是一个人或者董事长来想,而是有一个组织来考虑.当然,尽管不可能都想得和实际中完全一样,那么意外发生时要很快知道问题所在,情况就很好处理了.                                                                                                    

PgSQL · 最佳实践 · 双十一数据运营平台订单Feed数据洪流实时分析方案

摘要 2017年的双十一又一次刷新了记录,交易创建峰值32.5万笔/秒.支付峰值25.6万笔/秒.而这样的交易和支付等记录,都会形成实时订单Feed数据流,汇入数据运营平台的主动服务系统中去. 数据运营平台的主动服务,根据这些合并后的数据,实时的进行分析,进行实时的舆情展示,实时的找出需要主动服务的对象等,实现一个智能化的服务运营平台. 通过阿里云RDS PostgreSQL和HybridDB for PGSQL实时分析方案: - 承受住了几十万笔/s的写入吞吐并做数据清洗,是交易的数倍 - 实

EJB最佳实践:数据验证出现在什么地方最合适

尽管数据验证是所有企业应用程序的必需组件,但人们对数据验证过程的理解通常很肤浅,并且不能很好地执行.在这篇 EJB 最佳实践专栏文章中,Brett McLaughlin 解释了对基于 EJB 技术的系统进行数据验证的一些幕后概念,并向您展示了如何避免意外的或不可理解的错误消息. 每当您处理应用程序的业务逻辑时,都需要执行验证.应用程序必须有办法确保传入的数据格式正确,并且必须能够执行特定于业务的验证(如针对库存复核采购订单). 我们将讨论数据验证逻辑应该出现在 EJB 应用程序代码的 什么位置,