本文共 2155 字,大约阅读时间需要 7 分钟。
数据仓库面试基础知识
1. 数据仓库是什么?
数据仓库是一个面向主题、集成且反映历史数据的数据集合,专为支持数据分析和管理决策而设计。它整合多源异构数据,按主题存储历史数据,为后续分析提供支持。
数据仓库的关键特点:
- 面向主题:按某一主题(如销售、用户行为)存储数据
- 集成多源数据:整合不同系统或数据库中的数据
- 稳定性:数据一旦写入不再修改
- 支持历史分析:可追溯业务历程
2. 数据仓库与数据库的区别
| 对比维度 | 数据库 | 数据仓库 |
| 用途 | 事务处理、在线查询 | 分析、历史数据分析 |
| 数据存储 | 当前业务数据 | 历史数据,源数据摒弃 |
| 数据范式 | 三范式(最准确、最不冗余) | 反范式以支持查询优化 |
| 更新频率 | 高频 | 较低(存取即计算) |
3. 如何构建数据仓库?
数据仓库建设是一个系统化过程,主要包含以下阶段:
业务调研:了解业务需求、核心数据域 主题域划分:确定数据仓库的核心主题 总线矩阵设计:设计数据模型架构 分层架构设计:根据业务需求分层 模型落地:开发和部署数据模型 数据治理:规范数据管理流程 数据仓库设计注重灵活性和可扩展性,结合实际业务需求制定模型方案。
4. 数据中台是什么?
数据中台是企业数据的核心平台,通过对数据采集、计算、存储、加工进行整体管理,并对数据进行标准化和打通,形成统一的数据资产。其核心价值体现在:
- 数据复用:为多个业务场景提供数据支持
- 业务赋能:通过高效数据服务支撑企业运营
- 优势释放:通过统一数据标准降低重复建设成本
数据中台与数据仓库的关系:
- 数据中台是数据仓库和数据平台的集合,是更高层次的平台化解决方案。
- 数据中台提供数据API服务,为业务提供快速价值输出。
5. 数据中台、数据仓库、大数据平台、数据湖的区别
| 对比维度 | 数据平台 | 数据仓库 | 数据中台 | 数据湖 |
| 基础能力 | 数据计算与存储 | 数据平台的扩展 | 数据平台与仓库的整合 | 数据存储和处理平台 |
| 业务能力 | 数据集提供 | 数据分析 | 数据API提供 | 数据存取与处理 |
| 技术复杂度 | 简单 | 较高 | 较高 | 较低 |
| 应用场景 | 单一业务场景 | 广泛数据分析需求 | 跨部门、跨业务应用 | 数据源存储与处理 |
数据中台强调数据复用和业务关联,服务模型更灵活。
6. 大数据相关系统
大数据系统通常包含以下核心组件:
数仓设计中心:以主题域为导向,进行模型设计和数据建模。 数据资产中心:管理数据资产,优化数据治理。 数据质量中心:确保数据准确性,预防数据污染。 指标系统:定义指标、计算逻辑,实现流程化管理。 数据地图:提供元数据查询门户,方便数据关联。 这些组件共同构成大数据系统的核心功能模块。
7. 数据中台建设实践
数据中台建设是一个系统工程,主要包括以下步骤:
现状分析:评估业务、数据、技术现状。 架构定义:确定业务架构、技术架构、组织架构。 资产打造:构建标准数据层、贴近数据层、统一数仓层等。 数据应用:输出数据产品,为业务决策提供支持。 持续运营:通过数据运营,持续优化数据服务。 数据中台建设需要持续推动和执行,技术+业务的协同贡献是关键。
8. 数据仓库最重要的是什么?
数据仓库的核心价值体现在以下方面:
数据整合:整合多源异构数据,提供一致性视图。 数据质量:通过清洗、标准化,确保数据可靠性。 数据存储:为历史数据提供储存和分析基础。 数据可用性:通过标准化接口,支持多种应用场景。 数据质量和数据集成是数据仓库建设的重中之重。
9. 模型设计的思路
数据仓库建模有两种主要思路:
- Bill Inmon方法(自上而下):从整体业务视角出发,设计统一的数据中心,强调数据整合。
- Ralph Kimball方法(自下而上):根据具体业务需求设计数据模型,注重快速 Implementation。
两种方法各有优劣,选择时需根据企业需求和应用场景定位。
10. 为什么需要数据仓库建模?
数据仓库建模的主要目的包括:
业务梳理:清晰业务数据需求 问题分析:识别数据痛点,设计解决方案 流程优化:改进业务流程,消除信息孤岛 数据资产化:形成企业级数据资产 合理的数据模型设计可以有效提升数据处理效率,减少冗余,增强用户体验。
11. 数据仓库如何确定主题域?
主题域是数据仓库的核心概念,通常从以下角度划分:
业务/功能:根据业务核心需求划分 需求方:从数据使用者的角度划分 技术/架构:根据技术复杂度和数据类型分层 部门/组织:按照组织结构进行分区 主题域的划分可迭代完善,最好结合实际业务具体需求。
12. 数据质量控制方法
保持数据质量的关键措施包括:
校验机制:定期对比数据量,发现异常及时修复 抽样对比:验证数据正确性 复盘机制:定期复盘数据质量问题 数据监控:部署稽查系统,监控数据健康状况 数据质量是数据价值的基础,直接影响分析结果和用户体验。
13. 如何控制数据质量?
传送门:一篇文章搞懂数据仓库:数据治理(目的、方法、流程)——
数据质量控制需从以下几个方面入手:
建立明确的数据质量标准 部署全面的数据监控机制 进行数据验证和校验 建立数据修复机制 数据治理是确保数据质量和一致性的关键流程。
加入我们
解锁更多数据仓库知识和技术要点,欢迎加入微信交流群(扫码添加),公众号【Data Warehouse】关注更深入内容!
转载地址:http://godpz.baihongyu.com/