介绍段数据湖泊

妮可了不起9月8日2020年

对于那些具备丰富客户洞察能力并开启下一阶段个性化客户体验的公司来说,竞争优势是触手可及的。

去年,我们分享了一个常见的技术架构这个基础 -打造你的数据湖。从那时起,我们就开始了许多数据工程师和建筑师,他们开始设计和建造一个数据湖。在AWS,Azure和雪花等公司提供了强大的生产现已数据湖泊的组成部分,它可以在3个月到1年内占用一个内部的。

在一个客户对相关和个性化经验的期望不愿意等待,公司需要在质量和速度之间进行艰巨的权衡,以便立即建立和向业务提供生产准备的客户数据湖。万博官方购彩

今天,我们很高兴地宣布推出Segment Data Lakes,这是一个全新的交钥匙客户数据湖,为数据科学和高级分析用例提供所需的数据工程基础。万博官方购彩

下一代数据架构

通过分部数据湖泊,公司现在能够优化解锁缩放分析,机器学习和AI洞察力的成本和时间与批评的数据湖。段数据湖泊可单独优化一层高性能的缩放客户数据湖泊,为您提供强大的数据架构,几分钟内部部署在几分钟内。万博官方购彩

怎么运行的

段数据百kS构建存储层以将优化和原理化的客户数据保存在可伸缩对象存储中。万博官方购彩该层与元数据存储器连接,以便在解耦合和查询平台中提供简单的数据可发现性和集成。

缩放边缘

立即提供对Amazon Web服务(AWS)的支持,支持Microsoft Azure和Google Cloud进行支持。

在AWS上段数据湖泊

Segment Data Lakes今天推出,它建立在强大的AWS服务之上,以提高数据架构的性能和效用。

缩放边缘

存储层具有优化和schemalize原始数据

段数据存储在亚马逊S3的对象商店为海量数据提供廉价存储。在查询数据时,为了确保数据存储不仅经济而且性能良好,需要转换原始数据杰森格式化为压缩Apache拼花。因此,用户可以利用针对更快和更便宜的查询优化的基于列的数据格式。

为了消除工程师们现在所做的手动模式发现和管理工作,Segment Data Lakes模拟了数据仓库的一个关键好处,它分解了典型的非结构化数据,并创建了一个可以通过元数据存储访问的模式AWS胶水数据目录在这种情况下。

检查每个事件以推断模式并将其创建到Glue数据目录中的新表和列中。从这里开始,数据将进一步按天和小时划分,以显著减少需要扫描的数据量,从而返回更快的查询结果。

缩放边缘

灵活强大的电源分析和数据科学平台

元数据存储为不同工具轻松发现客户数据的目标子集提供了数据。万博官方购彩从这里开始,插入数据科学和分析工具包中的所有标准工具变得非常容易。

第一次,数据科学家和分析师可以轻松地使用诸如亚马逊雅典娜,或直接将其加载到它们的jupyter.没有额外设置的笔记本。分布式框架(比如Apach.火花Hadoop.可以方便地对数据进行大规模转换和建模。最后,供应商如databricks.与AWS粘合元数据存储集成,这样在S3中构建客户数据就更容易了。万博官方购彩

因此,您拥有一个开箱即用的强大的客户数据湖,可以作为数据基础,为客户数据之上的最高级用例提供支持。万博官方购彩

依赖交钥匙基础的好处

对于那些寻求更深入利用他们所拥有的客户数据的人来说,分段数据湖提供了一个基础架构来深入理解和预测客户万博官方购彩行为,从而开启下一个层次的个性化。作为一个结果,

  • 数据团队可以用更少的努力解锁更丰富的客户洞察

  • 数据工程师可以减少时间建设并维护其数据湖泊

  • 公司可以优化

    数据存储和计算成本

  • 数据工程师可以为未来的机器学习投资建立基础架构

减少富裕的客户洞察力减少努力

数据分析和数据科学团队能够利用完整的数据集从客户数据中获得更多价值,从而获得比以前更丰富的客户洞察,而不需要额外的工程工作。万博官方购彩

例如,Rokfin的基础设施工程团队以前将所有客户数据存储在数据仓库和Amazon S3之间。万博官方购彩由于查询仓库数据时只使用sql的限制,创新开始放缓。因此,Rokfin开始将仓库数据复制到S3中,以结合这两个数据集,并利用更广泛的工具堆栈来查询数据。

然而,这为工程团队增加了一个冗余步骤,并为依赖此数据集的下游团队增加了额外的依赖。

分段数据湖消除了在数据集之间搭建桥梁所需的工作,并为Rokfin的所有客户数据(从行为交互到支付数据)在S3中存储创造了一种简单的方式。万博官方购彩Rokfin最终能够将这些数据集结合在一起,形成一个比以前更丰富的数据集。

-细分市场让我们能够在数据湖中获得更多更好的数据,从而获得我们以前无法获得的不同类型的客户洞察。凯西·肯特,首席基础设施工程师

内部,Rokfin建立了更好的产品级和关键公司仪表板。新万博app2.0下载外部,Rokfin将数据提升为改进,强大的客户仪表板,以从更高深度数据集生成的更深入的洞察力,以优化自己的出版物并获取更多订阅者。

缩放边缘

富裕的洞察力增加了仪表板的参与20%,因为它提供了具有更有价值信息的内容创作者是什么推动了新的订户和保留订户,帮助创作者在一天结束时为他们制作的内容投入更多的钱。

数据工程师可以减少时间建设并维护其数据湖泊

数据工程师可以利用Segment Data Lakes产品为下游消费者提供现成的分析和数据科学基础。如今,许多企业被迫投入大量的资源和时间来设计、构建和维护自定义数据湖,Segment data Lakes将这些工作从工程团队手中抢走。

这可以显著减少花费在数据摄取、优化数据仓库配置和查询、管理模式推断和演进、或连接到数据目录以便下游工具发现数据上的时间。

作为一个结果,许多数据工程团队正在转向分段来帮助提供基线数据湖架构而不是需要设计,构建和维护它。

-从数据工程角度来看,段数据湖泊使我们能够通过完整季度向前移动路线图项。Anders Cassidy是数据工程总监

优化数据存储和计算成本

通过依赖廉价的数据存储,如Amazon S3,而不是数据仓库来存储所有客户数据,公司能够显著降低数据存储成本。万博官方购彩当Rokfin从数据仓库迁移到分段数据湖时,Rokfin能够将数据存储成本降低60%。

This new cost savings is opening up doors for companies - they’re able to leverage this storage cost reduction as another way to cut down spend across the business, or re-purpose this cost to invest more deeply in compute resources to run more EMR jobs and downstream queries to gain more value from putting their data to use.

数据工程师可以为未来的机器学习投资建立基础架构

数据工程团队现在能够自信地认为,他们的数据架构是经得起未来考验的,不仅能够满足当今的业务需求,而且还能够支持日益复杂的变化。

机器学习、分割和分析的基本前提是完整、准确和可访问的数据。过去,数据架构的约束迫使公司优先保留数据的子集,以降低存储成本或优化计算性能。

通过分段数据湖泊,所有历史,当前和未来的客户行为数据都可以轻松存储,而不会导致成本或资源争用。此外,已经卸载的历史段数据的数据团队可以在S3使用中重新构建一个完整的高深行为数据集段重播

有了这些基本数据集,数据消费者现在可以灵活地插入他们需要的任何计算层,从Databricks到Athena和EMR,甚至是带有外部表的仓库。

段数据湖泊提供了创新企业的基本面,无论他们在机器上学习到期之旅。企业是否专注于今天的高级细分,或明天的机器学习,都需要同一构建块。

今天开始!

作为当前计划的一部分,分部数据湖对所有分部业务层客户都可用。manbetx客户端应用下载今天就来看看我们的技术文档设立指南

如果你不是细分客户或者没有在商业计划中,联系我们向我们学习更多或注册我们的即将到来的会议

2030年,你的技术堆栈是什么样的?

在我们的新报告中,我们调查了超过4000名客户数据决策者,以评估客户数据行业当前和未万博官方购彩来的预测。

成为数据专家。

获取所有物品,产品和增长的最新文章直接向您的收件箱提供。