[知识总结] 基于Antlr对PostgreSql血缘解析(表、列),并存入Atlas
作者:CC下载站 日期:2022-01-14 08:19:00 浏览:76 分类:编程开发
上一篇文章讲了antlr的一个简单上手使用,这篇主要说下他的一个重要作用,就是解析sql,并提取其中表、字段信息,同时记录血缘关系,最后将其存入atlas中。
首先我们需要有 postgreSql的g4文件,当然这个肯定不是让你写的,否则累死了,我能在网上找到的postgreSql.g4是在两个地方,首先是 antlr 的github官网 有这个,但很可惜他解析出来的是csharp文件,我们java用不了,所以使用的是另一个民间大神的g4文件 antlr_psql
有了 g4 文件,我们便可以生成最重要的 Parser 文件:
其次我要说下antlr里一些比较重要的概念
RuleNode
我们g4文件里定义的一个个规则在 antlr 看来都是一个个的节点,比如 select
、from
、GROUP BY
等,而正是这么多若干的RuleNode最后形成了我们一颗大的解析树:
类似这个解析树里的一个个节点:select_stmt
、colum_list
等,这些也都是一开始定义在g4文件里的
然后是访问解析树的两种模式:监听者模式 和 访问者visitor模式,我这里主要说visitor模式
Visitor模式
PostgreSQLParserVisitor.java是个访问器接口,定义了一些访问RuleNode的接口方法,可以通过实现它来完成自定义的功能。而PostgreSQLParserBaseVisitor.java是该接口的默认实现,它为每个接口方法提供了空实现。
我们可以自己写一个类继承 PostgreSQLParserBaseVisitor ,并重写自己想要处理节点的方法,即可做自己的处理:
例如上图,我们能从解析树中看到 select_stmt这个节点,我们可以通过访问这个节点拿到它下面的列,再而即可拿到字段名字,而重写方法名只用在前面加上visit即可:
public class PostgreSqlFieldLineageParser extends PostgreSQLParserBaseVisitor {
@Override
public Object visitSelect_stmt(PostgreSQLParser.Select_stmtContext ctx) {
ctx.selector_clause().column_list().expr().forEach( exprContext -> {
exprContext.identifier().forEach(identifierContext -> {
System.out.println("visitSelect_stmt : " + identifierContext.getRuleContext().getText());
});
});
return super.visitSelect_stmt(ctx);
}
}
这样我们就可以在 antlr 访问解析树时拿到想要的字段,其中PostgreSQLParser.Select_stmtContext ctx 就是select_stmt节点的上下文,我们可以拿到它父子节点的值。
但是主要我们最后要 return 父级该方法,这是和监听器机制的不同:
注意:ANTLR的运行库提供了两种遍历树的机制:监听器机制与访问器机制。与访问器不同的是,监听器的方法会被ANTLR提供的遍历器对象(比如ParseTreeWalker)自动调用,而在访问器的方法中,必须显示调用visit方法来访问子节点。如果没有调用visit方法就会导致对应的子树不被访问。而且监听器方法是没有返回值的(即返回类型是void)。
我们调用visit方法即可访问节点信息:
//调用该方法
public void parseSqlFieldLineage(String sql) {
PostgreSqlFieldLineageParser visitor = new PostgreSqlFieldLineageParser();
visitor.visit(getParseTree(sql));
}
private ParseTree getParseTree(String sql) {
CharStream input = CharStreams.fromString(sql);
PostgreSQLLexer lexer = new PostgreSQLLexer(input);
CommonTokenStream tokenStream = new CommonTokenStream(lexer);
PostgreSQLParser parser = new PostgreSQLParser(tokenStream);
return parser.root();
}
如果我们要拿到 from 后的表名,同理:
@Override
public Object visitFrom_clause(PostgreSQLParser.From_clauseContext ctx) {
PostgreSqlFieldModel postgreSqlFieldModel = map.get(lastHashcode);
ctx.from_item().forEach(from_itemContext -> {
//别名
if (from_itemContext.alias() != null) {
System.out.println("from : " + from_itemContext.alias().identifier().getRuleContext().getText());
}
//表名
if (from_itemContext.table_name_() != null) {
System.out.println("from : " + from_itemContext.table_name_().getRuleContext().getText());
}
});
return super.visitFrom_clause(ctx);
}
由此我们还可以得出结论,当有子查询的时候visitSelect_stmt方法会访问多次,因为select_stmt节点可能会有多个,每次只能得到当前节点子节点的一些值,但我们需要知道
visitor模式访问解析树是层次遍历!不是深度优先
也就是说会把同一层的节点访问完毕再去访问下一层的子节点!
那我们在保存表与表之间的关系、列于列之间的关系时就要格外注意,在层次遍历时需要记录节点的父子关系!
(记录父子节点关系的具体代码后续更新,列血缘比较麻烦,有一些别名、计算类的情况没有完善到)
存入atlas
当我们有了表与表、列于列之间的关系的时候,便可以通过rest API存入atlas,我这里通过 AtlasClientV2
猜你还喜欢
- 03-29 [编程相关] Winform窗体圆角以及描边完美解决方案
- 03-29 [前端问题] has been blocked by CORS policy跨域问题解决
- 03-29 [编程相关] GitHub Actions 入门教程
- 03-29 [编程探讨] CSS Grid 网格布局教程
- 10-12 [编程相关] python实现文件夹所有文件编码从GBK转为UTF8
- 10-11 [编程算法] opencv之霍夫变换:圆
- 10-11 [编程算法] OpenCV Camshift算法+目标跟踪源码
- 10-11 [Python] python 创建 Telnet 客户端
- 10-11 [编程相关] Python 基于 Yolov8 + CPU 实现物体检测
- 03-15 [脚本工具] 使用go语言开发自动化脚本 - 一键定场、抢购、预约、捡漏
- 01-08 [编程技术] 秒杀面试官系列 - Redis zset底层是怎么实现的
- 01-05 [编程技术] 《Redis设计与实现》pdf
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[电视剧] 芈月传 【全集81集全】【未删减版】【国语中字】【2015】【HD720P】【75G】
[电视剧] 封神榜 梁丽版 (1989) 共5集 480P国语无字 最贴近原著的一版【0.98 G】
[影视] 【雪山飞孤4个版本】【1985、1991、1999、2007】【1080P、720P】【中文字幕】【167.1G】
[资料] 24秋初中改版教材全集(全版本)[PDF]
[电影] 高分国剧《康熙王朝》(2001)4K 2160P 国语中字 全46集 78.2G
[动画] 迪士尼系列动画139部 国英双语音轨 【蓝光珍藏版440GB】
[电影] 莫妮卡贝鲁奇为艺术献身电影大合集 1080P超清 双语字幕
[电影] DC电影宇宙系列合集18部 4K 高码率 内嵌中英字幕 273G
[音乐] 【坤曲/4坤时】鸡你太美全网最全,385首小黑子战歌,黄昏见证虔诚的信徒,巅峰诞生虚伪的拥护!
[音乐] 用餐背景音乐大合集 [MP3/flac]
[书籍] 彭子益医书合集 [PDF/DOC]
[游戏] 《黑神话悟空》免安装学习版【全dlc整合完整版】+Steam游戏解锁+游戏修改工具!
[动画] 《名侦探柯南》名侦探柯南百万美元的五菱星 [TC] [MP4]
[电视剧集] [BT下载][黑暗城市- 清扫魔 Dark City: The Cleaner 第一季][全06集][英语无字][MKV][720P/1080P][WEB-RAW]
[涨点姿势] 男性性技宝典:14招实战驭女术——爱抚、按摩、催情、姿势、高潮全攻略
[动画] 2002《火影忍者》720集全【4K典藏版】+11部剧场版+OVA+漫画 内嵌简日字幕
[剧集] 《斯巴达克斯》1-4季合集 无删减版 1080P 内嵌简英特效字幕
[CG剧情] 《黑神话:悟空》158分钟CG完整剧情合集 4K120帧最高画质
[短剧] 被下架·禁播的羞羞短剧·午夜短剧合集
[游戏] 黑神话悟空离线完整版+修改器
[影视] 美国内战 4K蓝光原盘下载+高清MKV版/内战/帝国浩劫:美国内战(台)/美帝崩裂(港) 2024 Civil War 63.86G
[影视] 一命 3D 蓝光高清MKV版/切腹 / 切腹:武士之死 / Hara-Kiri: Death of a Samurai / Ichimei 2011 一命 13.6G
[影视] 爱情我你他 蓝光原盘下载+高清MKV版/你、我、他她他 2005 Me and You and Everyone We Know 23.2G
[影视] 穿越美国 蓝光原盘下载+高清MKV版/窈窕老爸 / 寻找他妈…的故事 2005 Transamerica 20.8G
[电影] 《黄飞鸿》全系列合集
[Android] 开罗游戏 ▎像素风格的模拟经营的游戏厂商安卓游戏大合集
[游戏合集] 要战便战 v0.9.107 免安装绿色中文版
[书籍] 彭子益医书合集 [PDF/DOC]
[资源] 精整2023年知识星球付费文合集136篇【PDF格式】
[系统]【黑果小兵】macOS Big Sur 11.0.1 20B50 正式版 with Clover 5126 黑苹果系统镜像下载
- 最新评论
-
怎么没有后续闲仙麟 评论于:11-03 怎么没后续闲仙麟 评论于:11-03 有靳东!嘻嘻奥古斯都.凯撒 评论于:10-28 流星花园是F4处女作也是4人集体搭配的唯一一部!奥古斯都.凯撒 评论于:10-28 找了好久的资源,终于在这里找到了。感谢本站的资源和分享。谢谢AAAAA 评论于:10-26 找了好久的资源,终于在这里找到了。感谢本站的资源和分享。谢谢password63 评论于:10-26 找了好久的资源,终于在这里找齐了!!!!blog001 评论于:10-21 找了好久的资源,终于在这里找齐了!!!!blog001 评论于:10-21 找了好久的资源,终于在这里找到了。感谢本站的资源和分享。谢谢WillKwok 评论于:10-09 感谢分享1234123 评论于:10-07
- 热门tag