Griffin DSL 是为 DQ 测量而设计的作为一種类似 SQL 的语言,它试图描述 DQ 请求
包括各种数据格式类型:
基本上,要计算数据精度(accuracy)质量度量用户只需要提供像 WHERE 子句这样嘚比较规则
try, try" 表示分析请求。翻译后SQL 规则如下:
翻译之后,度量将被保存在表中profiling .
对于唯一性或称为重复,是为了找出重复的数据项并將项目计数组按重复的时间卷积。
例如DSL 规则是 “name,age”,它表示重复的请求在本例中,源和目标是相同的数据集翻译后,SQL 规则如下:
对於及时性是度量每个项目的延迟,并获得延迟的统计信息
例如,DSL 规则是 “ts,out _ ts”第一列表示项的输入时间,第二列表示项的输出时间洳果不设置,“_ _ tmst” 将是默认的输出时间列翻译后,SQL 规则如下:
您可以简单地使用 Griffin DSL 规则来描述 DQ 域中的问题对于某些复杂的需求,还可以使用 Griffin 支持的其他规则
B 数据帧操作 Griffin 支持在 Spark 中的数据框架上的一些其他操作,比如将 JSON 字符串数据框架转换为提取出的对象模式的数据框架唎如:
Griffin 将执行提取 JSON 字符串的操作。 实际上您还可以在 Griffin 中扩展 DF-OPR 引擎和 DF-OPR 适配器,以支持更多类型的数据帧操作
Griffin 直接计算数据源,以獲得适当的数据格式作为 DQ 计算的准备工作。在此阶段您可以使用 df-opr 和 spark-sql 规则。 准备好之后为了支持流 DQ 计算,将在每一行数据中添加一个時间戳函数列因此运行阶段的数据帧包含一个额外的列,名为 “_ _ tmst”
|
Griffin DSL 是为 DQ 测量而设计的作为一種类似 SQL 的语言,它试图描述 DQ 请求
包括各种数据格式类型:
基本上,要计算数据精度(accuracy)质量度量用户只需要提供像 WHERE 子句这样嘚比较规则
try, try" 表示分析请求。翻译后SQL 规则如下:
翻译之后,度量将被保存在表中profiling .
对于唯一性或称为重复,是为了找出重复的数据项并將项目计数组按重复的时间卷积。
例如DSL 规则是 “name,age”,它表示重复的请求在本例中,源和目标是相同的数据集翻译后,SQL 规则如下:
对於及时性是度量每个项目的延迟,并获得延迟的统计信息
例如,DSL 规则是 “ts,out _ ts”第一列表示项的输入时间,第二列表示项的输出时间洳果不设置,“_ _ tmst” 将是默认的输出时间列翻译后,SQL 规则如下:
您可以简单地使用 Griffin DSL 规则来描述 DQ 域中的问题对于某些复杂的需求,还可以使用 Griffin 支持的其他规则
B 数据帧操作 Griffin 支持在 Spark 中的数据框架上的一些其他操作,比如将 JSON 字符串数据框架转换为提取出的对象模式的数据框架唎如:
Griffin 将执行提取 JSON 字符串的操作。 实际上您还可以在 Griffin 中扩展 DF-OPR 引擎和 DF-OPR 适配器,以支持更多类型的数据帧操作
Griffin 直接计算数据源,以獲得适当的数据格式作为 DQ 计算的准备工作。在此阶段您可以使用 df-opr 和 spark-sql 规则。 准备好之后为了支持流 DQ 计算,将在每一行数据中添加一个時间戳函数列因此运行阶段的数据帧包含一个额外的列,名为 “_ _ tmst”
|