[知识总结] 【Atlas】学习总结
作者:CC下载站 日期:2022-01-09 10:57:00 浏览:82 分类:编程开发
因为我是元数据组的,,所以之后基本上都是在和元数据打交道,我所需要学习的第一个重要框架就是Atlas,但是目前关于它还暂时只有英文文档,所以只能硬着翻译学习
概览
Atlas 是一组可扩展和可延伸的核心基础治理服务, Apache Atlas 为组织提供开放的元数据管理和治理功能,以构建其数据资产的目录,对这些资产进行分类和治理。
元数据
我们先来聊一聊什么是元数据,元数据比较多的一个解释为“数据的数据”,是更为抽象的一层。
例如我们使用最的的关系数据库mysql,我们如果要存储学生信息,首先要建一个库,其次再一个学生表student,之后再一条一条的存储学生信息。
那么问题来了,描述“库”、和“表”的信息在哪呢?一个库需要有库名、库的存储引擎、字符集等信息,表有表名、行格式、索引等信息,这些在我们业务数据之上的数据,就称作为元数据,是更为抽象的一层数据。
Atlas架构
这个是Atlas的架构图,我们把目光聚焦在 Core 这一核心层,可以看出Atlas的核心组件有:Ingest/Export
、Type System
、Graph Engine
Type System
Type System 类型系统
首先我们称类型 type 为一个元数据对象(如hive表)的模型(可以类比 java 中的 class ),若干 type 便组成了 types ,每一个 type 所对应的实例为实体 entity ,若干entity组成entities。
那么Type System 是一个允许用户定义和管理 entities 和 types 的组件
类型
实体
属性
Graph Engine
图引擎用来持久化所管理的元数据对象,可以将 types 和 entities 相互转化。还对元数据对象创建索引,便于对元数据对象搜索
其调用 JenusGraph 是一个图数据库,来实际的存储元数据对象,由 Graph Engine 所调用,其会构建不同元数据对象之间的关系,形成图谱存入hive
Ingest/Export
元数据的导入和导出
Integration
一体化:提供两种方式来管理 Atlas 中的元数据。
一个是通过对外暴露的 rest 接口,可以直接http调用;另一个是通过消息传递机制,在元数据源采集时,每个源都有对应的 hook ,例如元数据源为 hive 时就有 hive hook ,会将即时变化的 数据 缓存至 kafka 中,而 atlas 则会订阅其相关主题来消费新变化的数据
web
Atlas 自带的一个web管理页面,可以查询元数据类型和对象,是一个类似于sql的查询
血缘分析
血缘分析是一种技术手段,用于对数据处理过程的全面追踪,从而找到某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系。
元数据对象之间的关系特指表示这些元数据对象的数据流输入输出关系。
目的:根据集成的数据库或视图,通过血缘追踪,获得结果数据的来源信息;更新数据时能够反映原始数据库的变化,查看数据在数据流中变化过程。
通常我们会对原始数据进行多个步骤的各种加工,最后产生出新的数据,在这个过程中会产生很多表,这些数据表之间的链路关系就可称为大数据血缘
大数据血缘测试,就是测试数据流转过程中的每个环节的数据质量
Data Lineage 数据血缘(数据血统) = Data Provenance 数据起源 = Data Pedigree 数据谱系
在现实世界中,我们每个个体都是祖先通过生育关系一代代孕育而来,这样就形成了我们人类的各种血缘关系。
在数据信息时代,每时每刻都会产生庞大的数据,即我们通常说的大数据,对这些数据进行各种加工组合、转换,又会产生新的数据,这些数据之间就存在着天然的联系,我们把这些联系称为数据血缘关系。
直白点说,数据血缘就是指数据产生的链路关系,就是这个数据是怎么来的,经过了哪些过程和阶段。
例子
比如在淘宝网中,客户在淘宝网页中购买物品后,数据就被存到后台数据库表A中。我们希望查看某个月卖的最火的是哪些物品时,就需要对数据库中的原始数据进行加工汇总,形成一张中间表B来存储阶段处理的数据,若逻辑较复杂时,还要继续加工继续形成中间表。。。直到最后处理成我们前台展现使用的最终表,假设为C表。
那么A表是C表数据最初的来源,是C表数据的祖先。从A表数据到B表数据再到C表数据,这条链路就是C表的数据血缘。
加速数据处理
很多银行在生成各类全局指标的过程中,需要大量的计算工作,往往只能满足T+1.5(1T代表1天)的要求,昨天的数据,要等到明天中午才能看。
尽管这样的效率已经不能够让业务部门满意,技术部门因此承担着巨大的压力,最让技术部门烦恼的还不只是如此,而是原始采集的数据可能因为各种各样的问题,在数据处理中做很多调整。我们这些做技术的,都能理解技术部门烦恼的原因。试
想一下,原本一个5个小时左右的处理任务,在运行4.5小时以后,即将完成,突然有人告诉你,最初给定的数据有问题,现在必须得改,而且还希望你能在1个小时内把数据算出来。借助血缘分析,这个方案有很大的提升空间。
如上图所示,在生成指标B的过程,输入表A进行了变更,如果通过血缘分析,了解到了A所影响的路径范围,那么完全不必要重新做一次所有计算任务,而只是把A到B之间影响到的节点重新加工即可。这样计算量可以大大缩减,而且提高任务的弹性时间,或许1小时内就能完成调整后的计算。
血缘分析是对数据对象内在关系的一种映射,同时还结合了时间顺序、递次关系也能够反映出一定的相关性和它的前因后果。因此应用的范围可以说非常广泛,也是我们数据资产治理的核心利器。
猜你还喜欢
- 03-29 [编程相关] Winform窗体圆角以及描边完美解决方案
- 03-29 [前端问题] has been blocked by CORS policy跨域问题解决
- 03-29 [编程相关] GitHub Actions 入门教程
- 03-29 [编程探讨] CSS Grid 网格布局教程
- 10-12 [编程相关] python实现文件夹所有文件编码从GBK转为UTF8
- 10-11 [编程算法] opencv之霍夫变换:圆
- 10-11 [编程算法] OpenCV Camshift算法+目标跟踪源码
- 10-11 [Python] python 创建 Telnet 客户端
- 10-11 [编程相关] Python 基于 Yolov8 + CPU 实现物体检测
- 03-15 [脚本工具] 使用go语言开发自动化脚本 - 一键定场、抢购、预约、捡漏
- 01-08 [编程技术] 秒杀面试官系列 - Redis zset底层是怎么实现的
- 01-05 [编程技术] 《Redis设计与实现》pdf
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[动画] 迪士尼系列动画139部 国英双语音轨 【蓝光珍藏版440GB】
[电影] 莫妮卡贝鲁奇为艺术献身电影大合集 1080P超清 双语字幕
[电影] DC电影宇宙系列合集18部 4K 高码率 内嵌中英字幕 273G
[音乐] 【坤曲/4坤时】鸡你太美全网最全,385首小黑子战歌,黄昏见证虔诚的信徒,巅峰诞生虚伪的拥护!
[音乐] 用餐背景音乐大合集 [MP3/flac]
[书籍] 彭子益医书合集 [PDF/DOC]
[电影] 《环太平洋两部合集》 4K REMUX原盘 [杜比视界] 国英双语音轨 [内封特效字幕] [133.8G]
[电影] 异人之下 The Traveller 2024✨【影版】【4K正式版/HQ超高码/DDP5.1】✚【1080高码】无水印/无压缩
[动漫] 头文字D 动漫 (1998) S01-S06季 1080P 国粤日音轨 续作 剧场版 电影
[小说] 知轩藏书全站7667册txt小说合集精心校对版
[书籍] 彭子益医书合集 [PDF/DOC]
[游戏] 《黑神话悟空》免安装学习版【全dlc整合完整版】+Steam游戏解锁+游戏修改工具!
[动画] 《名侦探柯南》名侦探柯南百万美元的五菱星 [TC] [MP4]
[电视剧集] [BT下载][黑暗城市- 清扫魔 Dark City: The Cleaner 第一季][全06集][英语无字][MKV][720P/1080P][WEB-RAW]
[涨点姿势] 男性性技宝典:14招实战驭女术——爱抚、按摩、催情、姿势、高潮全攻略
[动画] 2002《火影忍者》720集全【4K典藏版】+11部剧场版+OVA+漫画 内嵌简日字幕
[剧集] 《斯巴达克斯》1-4季合集 无删减版 1080P 内嵌简英特效字幕
[CG剧情] 《黑神话:悟空》158分钟CG完整剧情合集 4K120帧最高画质
[短剧] 被下架·禁播的羞羞短剧·午夜短剧合集
[游戏] 黑神话悟空离线完整版+修改器
[影视] 美国内战 4K蓝光原盘下载+高清MKV版/内战/帝国浩劫:美国内战(台)/美帝崩裂(港) 2024 Civil War 63.86G
[影视] 一命 3D 蓝光高清MKV版/切腹 / 切腹:武士之死 / Hara-Kiri: Death of a Samurai / Ichimei 2011 一命 13.6G
[影视] 爱情我你他 蓝光原盘下载+高清MKV版/你、我、他她他 2005 Me and You and Everyone We Know 23.2G
[影视] 穿越美国 蓝光原盘下载+高清MKV版/窈窕老爸 / 寻找他妈…的故事 2005 Transamerica 20.8G
[电影] 《黄飞鸿》全系列合集
[Android] 开罗游戏 ▎像素风格的模拟经营的游戏厂商安卓游戏大合集
[游戏合集] 要战便战 v0.9.107 免安装绿色中文版
[书籍] 彭子益医书合集 [PDF/DOC]
[资源] 精整2023年知识星球付费文合集136篇【PDF格式】
[系统]【黑果小兵】macOS Big Sur 11.0.1 20B50 正式版 with Clover 5126 黑苹果系统镜像下载
- 最新评论
-
怎么没后续闲仙麟 评论于:11-03 有靳东!嘻嘻奥古斯都.凯撒 评论于:10-28 流星花园是F4处女作也是4人集体搭配的唯一一部!奥古斯都.凯撒 评论于:10-28 找了好久的资源,终于在这里找到了。感谢本站的资源和分享。谢谢AAAAA 评论于:10-26 找了好久的资源,终于在这里找到了。感谢本站的资源和分享。谢谢password63 评论于:10-26 找了好久的资源,终于在这里找齐了!!!!blog001 评论于:10-21 找了好久的资源,终于在这里找齐了!!!!blog001 评论于:10-21 找了好久的资源,终于在这里找到了。感谢本站的资源和分享。谢谢WillKwok 评论于:10-09 感谢分享1234123 评论于:10-07 太好了终于找到了谢谢Tom 评论于:10-07
- 热门tag