大数据时代,数据湖并不能完全取代数据仓库

发布时间:2020-01-07

数据仓库为组织提供了一个访问窗口,以了解其历史业务性能并驱动连续操作,为数据分析师和业务用户提供客户行为、业务趋势、运营效率和销售等信息。尽管基于Hadoop和其他一些大数据技术的数据湖概念,随着公司越来越需要从更多不同的源系统收集和分析业务数据,这使得数据仓库仍然具有实用价值,甚至比以前更重要..




但随着数据管理架构的一部分,投资前的数据仓库平台,首先,检查你的组织是否真的需要一个数据仓库平台,以及哪些业务可以通过部署,组织实施得到实惠。相关时,必须考虑不同的数据仓库部署 - 在全部门或企业范围,在本地或云中。


您还需要确定通常存储在大数据系统中的非结构化和半结构化数据是否将成为数据仓库环境的一部分,以及用于Bi的传统数据仓库,企业报告和联机分析处理(OLAP)应用程序将与数据处理和大数据分析管理相结合。最后,必须将数据仓库用例与最合适的数据仓库平台类型相匹配。


数据中心


为什么需要数据仓库?


数据仓库的一般概念非常简单: 定期从支持业务流程的操作系统中提取数据副本,并将其加载到一个单独的存储库中,在存储库中合并数据,然后可用于分析和报告。 然后,业务用户和分析师可以通过 bi 和分析工具、仪表板、门户和准备好的报告访问数据。


在下列情况下,数据仓库可能更容易获得其价值:

·公司在做出有效的商业活动报告方面遇到了难题,因为所需要的数据不容易获得。

·不同的部门和用户组将业务数据复制到电子表格中进行分析,但电子表格之间并不总是一致的。

*数据质量和准确性方面的不确定性导致高管和业务经理质疑报告的准确性。

*生产数据库的BI报告将每晚推迟,或在月底进行交易数据处理,需要延长处理窗口。

·在运行特设对数据库的查询会降低系统的运行速度,从而影响内部用户和客户,供应商和其他外部用户的日子。


一个正确的数据仓库实现策略可以帮助您的组织准确地回答有关业务操作的问题,例如发生了什么和为什么。数据仓库可以将来自不同位置和源的数据组合到一个中央存储库中,以提高数据的可访问性。当数据移动到数据仓库时,通常会对其进行清理和转换,使其与分析一致,这将有助于提高查询结果和报表信息的质量。


此外,一旦数据仓库被部署和积极使用,操作流程可能会变得更有效,因为 bi,报告和分析活动被移出生产数据库。


数据仓库的部署


各组织之间的数据仓库环境可能有很大的不同。从体系结构的角度来看,部署可以遵循多个路径-例如企业数据仓库(EDW)、一组较小的数据集市,或者这两种方法的组合。


Edw 包含来自企业操作系统的所有相关数据,可能包含从外部数据源收集的一些数据。 它是一个单一的统一存储库,用于存储 bi 和分析数据,可以跨所有部门和业务单位使用。 因此,建立一个 edw 通常是一个艰巨的任务,尤其是在一个大型企业。


在EDW架构中,组织还可以在其操作系统和企业数据仓库之间实施运营数据存储(ODS)作为过渡步骤。将运营数据复制到ODS,然后提取并加载到数据仓库中。ODS可以用作尚未经过转换的、无法用于分析的数据的暂存区,同时可以用于运行近实时的查询,这些查询需要最新的业务运营的详细相关数据,而不是数据仓库中可用的数据。


数据集市是关注于每个业务单元和功能区域的小型数据仓库。 当涉及到满足部门特定的 bi 需求时,组织通常会选择建立数据集市并优先考虑报告功能。 数据集市不需要覆盖整个企业范围的大型项目,而是更加集中,可以更快地交付业务利益。


因此,数据集市方法允许组织通过一次处理业务的所有部分来迭代地开发数据仓库体系结构-而不是构建整个EDW。企业可以选择部署一个或多个数据集市,这取决于组织的规模和结构。


然后,决定组合采用这两种方法的组织,可以将不同的数据集市彼此集成以创建虚拟EDW,或以物理方式填充一个EDW。另一种方式是,以EDW开始的组织可以将仓库数据的子集提供给后来建立的数据集市,以此分离业务运营。


本地与云数据仓库


每个可用的数据仓库平台类型都有不同的部署选项:数据库管理系统(DBMS)软件,通常基于关系数据库技术;专用分析DBMS;数据仓库设备将必要的硬件和DBMS软件捆绑在一个包中;云数据仓库。


使用云存储数据已经成为一个更可行的选择。 一些供应商已经推出了特定于云的数据仓库平台,一些供应商现在提供原本安装在本地的基于云的数据仓库数据库版本。 这些产品包括常规的数据仓库系统,这些系统可以在云中运行,以及数据仓库即服务(dwaas)技术,供应商可以为用户部署和管理这些技术。


与其他类型的云系统一样,与本地环境相比,云数据仓库可以减少部署时间,并提供更轻松的可伸缩性和更大的灵活性。还可以节省一定的成本——但这并不能保证,IT经理需要密切关注云中数据仓库的使用,以确保成本最终不会高于预期。同样,数据安全和隐私问题可能是决定是否在本地部署数据仓库的考虑因素。


数据湖与数据仓库


Hadoop和其他大数据技术的第一次,他们是否将取代数据仓库之后,市场上充斥的声音。但是,在大多数组织中,数据仓库并没有消失。相反,它们通常是大的数据系统共存,每个系统支持不同类型的分析的情况。


通常基于关系型数据仓库DBMS平台,包括从组织结构化数据操作和事务处理系统。数据仓库包含要运行的SQL为主,业务分析师和高管基本的BI查询,并希望创建仪表板和报告来分析所提供的信息BI开发人员访问企业用户。


另一方面,大数据系统通常基于非关系技术,如Hadoop、Spark和NoSQL数据库。它们包含可以是结构化、非结构化或半结构化的数据,并且可以源自所有类型的内部系统,以及社交网络和其他外部数据源。大数据分析旨在发现模式、关联和类似的见解--例如,基于过去的活动预测未来趋势和客户行为。通常由数据科学家和统计学家使用用诸如Python、R和Scala等语言开发的复杂分析模型来完成。


大数据技术还支持数据湖的概念,即各种来源的原始数据的存储库,这些原始数据可以按原样存储,然后根据需要进行过滤和分析。


最后,大数据系统并没有直接替换数据仓库和数据集市。事实上,有数据仓库和数据湖之间的协同作用。例如,在湖中收集的数据的结构化数据集可以被移动到数据仓库中,OLAP进行常规的存储和分析。供应商也开始向大型的数据仓库平台,它可以从不同格式存储在不同系统中的位置访问数据,数据访问集成。


数据仓库用例和场景


以下是一些用例和场景,这些用例和场景可能会影响组织的数据仓库策略,并决定为数据仓库项目部署哪种类型的平台。


首先是长期数据仓库用户。 希望扩展现有数据仓库的公司通常会继续使用他们已经建立好的数据仓库平台。 对于第一次实现数据仓库的组织来说,数据仓库设备可能是一个不错的选择。 供应商可能会与您一起确定适当的设备规格和配置,而且这些设备的交付非常简单。 但是,所有数据仓库平台对于初次使用者都是可行的选择,您应该检查部门中的其他用例,以制定您的具体需求和部署计划。


公司规模。大公司可以选择主流的关系DBMS、分析数据库或混合事务/分析处理(H TAP)系统。这些组织拥有成功使用这种技术的基础设施和人员。在HTAP方法中,相同的DBMS既可以用于处理业务事务,也可以用于BI和分析建模。为了支持HTAP,关系数据库引擎可以提供内置的列访问或用于分析处理的附加设备..


在另一方面,规模较小的组织应该考虑使用数据仓库设备或云数据仓库服务。这两种方法都可以最大限度地减少管理需求:设备已预先配置,并DWaaS环境提供在云中的数据仓库一般设置和由云服务提供商管理。


It 部门的规模。 It 部门相对较小的大型组织往往缺少能够构建、适应和管理数据仓库系统的数据库管理员和其他 it 专业人员。 他们考虑使用数据仓库设备或者 dwaas 产品也是有意义的。


云用例。 如果您的组织在云中运行大量应用程序,那么部署 dwaas 或自管理云数据仓库平台可能是您的最佳选择。 存储为数据仓库和分析而生成和存储在云中的业务数据是一种逻辑方法。


数据延迟要求。对于在分析应用程序中需要最小数据延迟的组织,优化的数据仓库设备可能是最有价值的。使用其他方法并不意味着您无法实现接近实时的延迟,但您可能需要使用其他高速硬件和软件来扩展数据仓库环境以满足您的性能目标。


一旦您的组织决定需要建立一个数据仓库,并确定了最合理的部署场景,下一步就是探索购买数据仓库平台的可用技术选择。 整个过程,往往需要充分考虑。


中安威士:保护核心数据,捍卫网络安全


来源:网络收集

上一条:银行APP被点名后陆续更新隐私条款 预防数据泄露需“双管齐下” 下一条:2020年的10个数据和分析趋势