一年前,苹果表示它运行着超过 75,000 个 Cassandra 节点,存储着超过 10 PB 的数据。至少有一个集群超过 1,000 个节点,苹果定期使用 Cassandra 每秒获得数百万次操作(读/写)。
EmoDB 是一个基于 Cassandra 构建的开源 RESTful 数据存储,它存储 JSON 文档,最值得注意的是,它提供了一个数据总线,允许订阅者实时监控这些文档的变化。
在评估 MySQL、MongoDB 和其他潜在的物联网规模数据库时,Bigmate 发现它们无法与开源 Apache Cassandra 的可扩展性相匹配,Apache Cassandra 允许它们每秒处理数百万次操作或并发用户。
黑莓部署 Apache Cassandra 作为其物联网 (IoT) 平台的 NoSQL 数据库解决方案。黑莓物联网平台为黑莓雷达物联网解决方案提供动力,该解决方案旨在为组织的运输车队提供持续的可见性。
在贝莱德,我们以多种方式使用 Apache Cassandra 来帮助为我们的 Aladdin 投资管理平台提供动力。在本演讲中,我将概述我们对 Cassandra 的使用,重点介绍我们在 Cassandra 基础设施中如何管理多租户。
Campaign Monitor 知道,转向新的数据库技术是一项重大任务。他们选择 Apache Cassandra 作为其战略运营数据库平台,因为它具有卓越的可靠性、可扩展性管理和开源社区。
P-BEAST 包含运行在 2,400 台互连计算机上的 20,000 个应用程序。欧洲核子研究组织使用 Apache Cassandra 来满足该项目所带来的大规模时间序列数据速率、灵活性和可扩展性要求。
Constant Contact 使用 Cassandra 管理超过 400,000 家小型企业客户的社交媒体数据。其最大的生产集群在超过 150 台机器上拥有超过 100 TB 的数据。
石油和天然气行业将传感器数据存储在行业特定的文档数据库中,其中数据访问只能通过基于 SOAP 和 XML 的专有 API 获得。DataCloud 通过将这些数据传输到 Apache Cassandra 数据库集群来解决这个问题。
Cassandra 是唯一满足 Discord 所有要求的数据库,因为他们可以添加节点来扩展它,并且它可以容忍节点丢失而不会对应用程序产生任何影响。相关数据连续存储在磁盘上,提供最少的寻道次数和轻松的集群分布。
该公司于 2008 年开始运营,并于 2012 年开始提供单场比赛幻想体育。它是印度最大的体育游戏平台,用户可以玩幻想板球、足球、卡巴迪、篮球和曲棍球。Dream11 是 VIVO 印度超级联赛 (IPL)、国际板球理事会 (ICC) 的官方幻想合作伙伴。
我们 Cassandra 部署的概览:跨多个集群的数十个节点,200 TB+ 的存储配置,每天 4 亿+ 写入和 1 亿+ 读取,并且还在不断增长,包括 QA、LnP 和多个生产集群。
Fractal 的 API 聚合数据,并分析基于许可的银行、会计和支付数据,以便金融机构可以提供及时的提示和见解,帮助其小型企业客户获得资金并更好地了解其财务状况。
Grubhub 运行一个面向服务的平台,该平台主要在多个 AWS 数据中心(区域)运行。它迁移到云基础设施以加速其增长,使用 Apache Cassandra 作为其主要持久数据存储。
这可能是有史以来最具工程性的非答案,那就是自从我们进行更改和升级后,我实际上不必关心 Cassandra。通常,如果我在半夜被叫醒,那很可能是因为短暂的 Cassandra 故障导致响应时间增加。这种情况已经完全消失了。
在 Instaclustr,我们也面临着巨大的数据挑战,我们正在使用 Apache Cassandra 和 Apache Spark 来解决这个问题。Instametrics 为我们提供了对 Instaclustr 技术栈进行内部测试的绝佳机会。
在 Instagram,我们拥有世界上最大的 Apache Cassandra 数据库部署之一。我们从 2012 年开始使用 Cassandra 来替换 Redis 并支持产品用例,例如欺诈检测、Feed 和 Direct 收件箱。
Mint Bills 选择 Apache Cassandra 来存储用户帐户数据。“当您在 Mint Bills 应用程序中选择帐户时,实际上是从 Cassandra 直接检索信息,”Csasznik-Shaked 补充道。
Intuit 在 AWS 中的生产环境中支持超过 42,000 个峰值 TPS,超过 8 个生产集群。Cassandra 必须处理大量数据,例如权利、纳税申报表、申报、用户体验以及支持 TurboTax 所需的一切。
Keen 利用 Kafka、Apache Cassandra NoSQL 数据库和 Apache Spark 分析引擎,添加了 RESTful API 和针对不同语言的多个 SDK。它使用相关元数据丰富流数据,并使客户能够将丰富后的数据流式传输到 Amazon S3 或任何其他数据存储。
“一旦设置并运行,它就是免维护的。坦率地说,从操作的角度来看,它很简单。因此,我们的客户,他们正在使用 Cassandra,但他们并没有真正意识到。但他们确实会说,‘它总是启动的。它总是很快的。’ 这些都是您真正希望最终用户了解的所有好处。”
“我们经常听到客户说,没有哪个平台能够像 Apache Cassandra 一样处理所有这些数据。如果您正在生成大量数据,您需要全局弹性;您将选择 Cassandra。当您需要扩展时,它可以做到。”
Locstat 展示了一个由 Geotrellis 生成的热图,其中包含来自飞机的飞行数据以及开普敦国际机场周围的飞行模式。数据存储在 Cassandra 中,然后通过 Apache Spark 推送并使用 Geotrellis 在 Cesium 空间界面中可视化。
Cassandra 提供了一个智能数据存储层,该层通过开放的 API 平台从麦格理内部的后台系统中获取信息,然后以极快的速度为客户请求提供服务,这在很大程度上归功于其内存中功能。
业务增长导致我们希望数据增长 10 倍,从主要读取模型转变为能够处理近实时更新的模型,以及迁移到多个数据中心。POC 结果:Cassandra 和 ActiveSpaces - 非常接近。MongoDB - 测试失败。YMMV!
Maths Pathway 是一种学习和教学模型,它支持学生沿着个人路径构建对数学的深刻理解和知识。Maths Pathway 在 Apache Cassandra 的帮助下提供了这种个性化学习。
METRO 希望整合开发,高层管理人员认为 Apache Cassandra 将是一个良好的起点。整个平台已迁移,团队开始使用 Google Cloud 的原生服务来有效地与 Cassandra 交互。
“我们希望实现一个分布式数据库,该数据库适合我们的基于微服务的应用程序策略,并且能够处理应用程序的可用性和可扩展性需求,”Jakobsen 说。“Cassandra 完美地匹配了这种模型……”
Monzo 采用微服务架构(基于 Go 和 Kubernetes),并针对最近完全通过其应用程序运行的众筹活动对 Apache Cassandra 和 Linkerd 等关键平台组件进行了分析和优化。
Netflix 在 Apache Cassandra 中管理着 PB 级的数据,这些数据必须在毫秒级内可靠地提供给用户。他们构建了复杂的控制平面,将基于 Apache Cassandra 的持久层转变为真正的自驱动系统。
NHN Techorus 通过其数据酒店部门提供 IT 基础设施和托管服务。该团队发现,越来越多的客户希望使用 Apache Cassandra 作为其数据存储来部署应用程序和解决方案。
Ooyala 使用 Cassandra 构建了一个实时分析引擎。Evan Chan(Ooyala 软件工程师)描述了他使用 Spark 和 Shark 框架在 Cassandra 数据之上运行实时查询的经验。
Outbrain 拥有 30 个不同规模的 Apache Cassandra 生产集群,从小型集群到跨 3 个数据中心拥有 100 个节点的集群。Cassandra 作为数据存储已被证明是一个非常可靠的选择,它采用最终一致性模型。
宾夕法尼亚互惠人寿将他们的数据信息存储在一个 6 节点的 Cassandra 环中。现在,他们能够利用数据进行创新并做出更明智的决策,从而为客户提供真正个性化和优质的体验。
“随着物联网的兴起,跟踪网络中不断增长的接触点的需求变得越来越具有挑战性。幸运的是,Stevens 和他的团队之前有一些使用 Apache Cassandra 的经验……”
PubNub 提供实时基础设施即服务,并提供企业级安全性、99.999% 的 SLA 支持的可靠性和全球可扩展性,以支持最大的实时部署,所有这些都通过简单的 API 和 70 多个 SDK 实现。
RevTrax 选择 Cassandra 作为其正常运行时间和线性扩展的原因:“如果我们需要扩展,使用 Cassandra 比使用 MySQL 更容易扩展读写。”但最重要的是,它被选中是因为其持久性和没有单点故障。
Sky 在其在线视频平台中使用 Cassandra 进行数据库持久化 - 该系统向 Sky 和 NOW TV 客户提供所有 OTT 视频内容 - 包括处理热门体育赛事和电视节目带来的巨大流量高峰。
Apache Cassandra 在 Target 已使用多年 - 大约从 2014 年开始。在这里,他们讨论了如何学习将 Cassandra 部署为 Kubernetes 中的 Docker 容器,同时仍然保持稳定性和一致性 - 在其地图上的每个位置都可靠地运行。
Uber 已经运行了一个开源的 Apache Cassandra® 数据库即服务,该服务为各种关键任务 OLTP 工作负载提供支持,这些工作负载在 Uber 规模上运行了六年多,每秒处理数百万个查询,数据量达到 PB 级。
海洋观测计划 (OOI) 是一个以科学为驱动的海洋观测网络,它从 800 多个仪器中提供实时数据,以解决有关世界海洋的关键科学问题。Apache Cassandra 作为该系统的核心,运行在混合基础设施上。
Yelp 正在从在 EC2 中管理 Cassandra 集群过渡到在 Kubernetes 上编排生产环境中的相同集群。在这里,他们讨论了基于 EC2 的部署以及如何使用 Cassandra 运算符和 etcd 进行跨区域协调。