[Feature][Docs] Perfect metric docs (#25)

datavane · Oct 2, 2023 · 3188f93 · 3188f93
1 parent 9e97ff4
commit 3188f93
Show file tree

Hide file tree

Showing 48 changed files with 1,820 additions and 46 deletions.
diff --git a/...e-table-metric/02-custom-aggregate-sql.md → ...e-table-metric/01-custom-aggregate-sql.md b/...e-table-metric/02-custom-aggregate-sql.md → ...e-table-metric/01-custom-aggregate-sql.md
diff --git a/...single-table-metric/01-column-not-null.md → ...single-table-metric/02-column-not-null.md b/...single-table-metric/01-column-not-null.md → ...single-table-metric/02-column-not-null.md
@@ -38,12 +38,14 @@ title: 'column_not_null'
 ### 检查过程中自动生成的 `SQL` 语句
 
 检查过程会用到的一些自动生成的参数，用于区分各个检查规则。
-- uniqueKey：会根据每个规则的配置信息生成一个唯一键值
-- invalidate_items_table：会创建一个视图用于存储中间表数据，中间表数据一般为命中规则的数据，即为错误数据，该视图的名字生成规则为 invalidate_items_${uniqueKey}
+- uniqueKey
+    - 会根据每个规则的配置信息生成一个唯一键值
+- invalidate_items_table
+    - 会创建一个视图用于存储中间表数据，中间表数据一般为命中规则的数据，即为错误数据，该视图的名字生成规则为 invalidate_items_${uniqueKey}
 
-中间表 invalidate_items_uniqueKey
+中间表 invalidate_items_${uniqueKey}
 ```
-select * from ${table} where  ${column} is not null and ${filter}
+select * from ${table} where ${column} is not null and ${filter}
 ```
 计算实际值的 `SQL` 
 ```

diff --git a/docs/04-features/02-metric/01-single-table-metric/03-column-null.md b/docs/04-features/02-metric/01-single-table-metric/03-column-null.md
@@ -38,10 +38,12 @@ title: 'column_null'
 ### 检查过程中自动生成的 `SQL` 语句
 
 检查过程会用到的一些自动生成的参数，用于区分各个检查规则。
-- uniqueKey：会根据每个规则的配置信息生成一个唯一键值
-- invalidate_items_table：会创建一个视图用于存储中间表数据，中间表数据一般为命中规则的数据，即为错误数据，该视图的名字生成规则为 invalidate_items_${uniqueKey}
+- uniqueKey
+    - 会根据每个规则的配置信息生成一个唯一键值
+- invalidate_items_table
+    - 会创建一个视图用于存储中间表数据，中间表数据一般为命中规则的数据，即为错误数据，该视图的名字生成规则为 invalidate_items_${uniqueKey}
 
-中间表 invalidate_items_uniqueKey
+中间表 invalidate_items_${uniqueKey}
 ```
 select * from ${table} where ${column} is null and ${filter}
 ```

diff --git a/docs/04-features/02-metric/01-single-table-metric/04-column-avg.md b/docs/04-features/02-metric/01-single-table-metric/04-column-avg.md
@@ -38,7 +38,8 @@ title: 'column_avg'
 ### 检查过程中自动生成的 `SQL` 语句
 
 检查过程会用到的一些自动生成的参数，用于区分各个检查规则。
-- uniqueKey：会根据每个规则的配置信息生成一个唯一键值
+- uniqueKey
+    - 会根据每个规则的配置信息生成一个唯一键值
 
 计算实际值的 `SQL` 
 ```

diff --git a/docs/04-features/02-metric/01-single-table-metric/05-column-avg-length.md b/docs/04-features/02-metric/01-single-table-metric/05-column-avg-length.md
@@ -38,7 +38,8 @@ title: 'column_avg_length'
 ### 检查过程中自动生成的 `SQL` 语句
 
 检查过程会用到的一些自动生成的参数，用于区分各个检查规则。
-- uniqueKey：会根据每个规则的配置信息生成一个唯一键值
+- uniqueKey
+    - 会根据每个规则的配置信息生成一个唯一键值
 
 计算实际值的 `SQL` 
 ```

diff --git a/docs/04-features/02-metric/01-single-table-metric/06-column-blank.md b/docs/04-features/02-metric/01-single-table-metric/06-column-blank.md
@@ -38,10 +38,12 @@ title: 'column_blank'
 ### 检查过程中自动生成的 `SQL` 语句
 
 检查过程会用到的一些自动生成的参数，用于区分各个检查规则。
-- uniqueKey：会根据每个规则的配置信息生成一个唯一键值
-- invalidate_items_table：会创建一个视图用于存储中间表数据，中间表数据一般为命中规则的数据，即为错误数据，该视图的名字生成规则为 invalidate_items_${uniqueKey}
+- uniqueKey
+    - 会根据每个规则的配置信息生成一个唯一键值
+- invalidate_items_table
+    - 会创建一个视图用于存储中间表数据，中间表数据一般为命中规则的数据，即为错误数据，该视图的名字生成规则为 invalidate_items_${uniqueKey}
 
-中间表 invalidate_items_uniqueKey
+中间表 invalidate_items_${uniqueKey}
 ```
 select * from ${table} where (${column} is null or ${column} = '') and ${filter}
 ```

diff --git a/docs/04-features/02-metric/01-single-table-metric/07-column-distinct.md b/docs/04-features/02-metric/01-single-table-metric/07-column-distinct.md
@@ -38,7 +38,8 @@ title: 'column_distinct'
 ### 检查过程中自动生成的 `SQL` 语句
 
 检查过程会用到的一些自动生成的参数，用于区分各个检查规则。
-- uniqueKey：会根据每个规则的配置信息生成一个唯一键值
+- uniqueKey
+    - 会根据每个规则的配置信息生成一个唯一键值
 
 计算实际值的 `SQL`， 输出不重复的行数
 ```

diff --git a/docs/04-features/02-metric/01-single-table-metric/08-column-duplicate.md b/docs/04-features/02-metric/01-single-table-metric/08-column-duplicate.md
@@ -38,10 +38,12 @@ title: 'column_duplicate'
 ### 检查过程中自动生成的 `SQL` 语句
 
 检查过程会用到的一些自动生成的参数，用于区分各个检查规则。
-- uniqueKey：会根据每个规则的配置信息生成一个唯一键值
-- invalidate_items_table：会创建一个视图用于存储中间表数据，中间表数据一般为命中规则的数据，即为错误数据，该视图的名字生成规则为 invalidate_items_${uniqueKey}
+- uniqueKey
+    - 会根据每个规则的配置信息生成一个唯一键值
+- invalidate_items_table
+    - 会创建一个视图用于存储中间表数据，中间表数据一般为命中规则的数据，即为错误数据，该视图的名字生成规则为 invalidate_items_${uniqueKey}
 
-中间表 invalidate_items_uniqueKey
+中间表 invalidate_items_${uniqueKey}
 ```
 select ${column} from ${table} where ${filter} group by ${column} having count(${column}) > 1
 ```

diff --git a/docs/04-features/02-metric/01-single-table-metric/09-column-in-enums.md b/docs/04-features/02-metric/01-single-table-metric/09-column-in-enums.md
@@ -42,10 +42,12 @@ title: 'column_in_enums'
 ### 检查过程中自动生成的 `SQL` 语句
 
 检查过程会用到的一些自动生成的参数，用于区分各个检查规则。
-- uniqueKey：会根据每个规则的配置信息生成一个唯一键值
-- invalidate_items_table：会创建一个视图用于存储中间表数据，中间表数据一般为命中规则的数据，即为错误数据，该视图的名字生成规则为 invalidate_items_${uniqueKey}
+- uniqueKey
+    - 会根据每个规则的配置信息生成一个唯一键值
+- invalidate_items_table
+    - 会创建一个视图用于存储中间表数据，中间表数据一般为命中规则的数据，即为错误数据，该视图的名字生成规则为 invalidate_items_${uniqueKey}
 
-中间表 invalidate_items_uniqueKey
+中间表 invalidate_items_${uniqueKey}
 ```
 select * from ${table} where (${column} in (${enum_list})) and ${filter}
 ```

diff --git a/docs/04-features/02-metric/01-single-table-metric/10-column-not-in-enums.md b/docs/04-features/02-metric/01-single-table-metric/10-column-not-in-enums.md
@@ -0,0 +1,68 @@
+---
+id: 'column-not-in-enums'
+title: 'column_not_in_enums'
+---
+## 使用方法
+- 点击创建规则作业，选择数据质量作业
+- 进入作业页面选择 枚举值[不在]检查 规则
+- 选择要检查的数据源信息
+
+## 参数介绍
+### Options
+
+|             name             |  type  |  required  | default value |
+|:----------------------------:|:------:|:----------:|:-------------:|
+| [database](#database-string) | string |    yes     |       -       |
+|    [table](#table-string)    | string |    yes     |       -       |
+|   [column](#column-string)   | string |    yes     |       -       |
+|   [enum_list](#enum_list-string)   | string |    yes     |       -       |
+
+#### database [string]
+源表数据库名
+#### table [string]
+源表数据库中的表名
+#### column [string]
+要检查的列
+#### enum_list [string]
+枚举值列表，用,隔开
+
+### 配置文件例子
+```
+{
+    "metricType": "column_in_enums",
+    "metricParameter": {
+        "database": "datavines",
+        "table": "dv_catalog_entity_instance",
+        "column": "type"
+        "enum_list":"'database','table'"
+    }
+}
+```
+
+### 检查过程中自动生成的 `SQL` 语句
+
+检查过程会用到的一些自动生成的参数，用于区分各个检查规则。
+- uniqueKey
+    - 会根据每个规则的配置信息生成一个唯一键值
+- invalidate_items_table
+    - 会创建一个视图用于存储中间表数据，中间表数据一般为命中规则的数据，即为错误数据，该视图的名字生成规则为 invalidate_items_${uniqueKey}
+
+中间表 invalidate_items_${uniqueKey}
+```
+select * from ${table} where (${column} not in ( ${enum_list} ) or ${column} is null) and ${filter}
+```
+计算实际值的 `SQL`，输出的实际值是列的值不在枚举值列表中的列的行数
+```
+select count(1) as actual_value_"+ uniqueKey +" from ${invalidate_items_table}
+```
+
+## 使用案例
+
+### 场景
+...
+
+### 思路
+...
+
+### 步骤
+...
diff --git a/...1-single-table-metric/10-column-length.md → ...1-single-table-metric/11-column-length.md b/...1-single-table-metric/10-column-length.md → ...1-single-table-metric/11-column-length.md
@@ -46,10 +46,12 @@ title: 'column_length'
 ### 检查过程中自动生成的 `SQL` 语句
 
 检查过程会用到的一些自动生成的参数，用于区分各个检查规则。
-- uniqueKey：会根据每个规则的配置信息生成一个唯一键值
-- invalidate_items_table：会创建一个视图用于存储中间表数据，中间表数据一般为命中规则的数据，即为错误数据，该视图的名字生成规则为 invalidate_items_${uniqueKey}
+- uniqueKey
+    - 会根据每个规则的配置信息生成一个唯一键值
+- invalidate_items_table
+    - 会创建一个视图用于存储中间表数据，中间表数据一般为命中规则的数据，即为错误数据，该视图的名字生成规则为 invalidate_items_${uniqueKey}
 
-中间表 invalidate_items_uniqueKey
+中间表 invalidate_items_${uniqueKey}
 ```
 select * from ${table} where (length(${column}) ${comparator} ${length})) and ${filter}
 ```

diff --git a/docs/04-features/02-metric/01-single-table-metric/12-column-match-not-regex.md b/docs/04-features/02-metric/01-single-table-metric/12-column-match-not-regex.md
@@ -0,0 +1,68 @@
+---
+id: 'column-match-not-regex'
+title: 'column_match_not_regex'
+---
+## 使用方法
+- 点击创建规则作业，选择数据质量作业
+- 进入作业页面选择 正则表达式[不匹配]检查 规则
+- 选择要检查的数据源信息
+
+## 参数介绍
+### Options
+
+|             name             |  type  |  required  | default value |
+|:----------------------------:|:------:|:----------:|:-------------:|
+| [database](#database-string) | string |    yes     |       -       |
+|    [table](#table-string)    | string |    yes     |       -       |
+|   [column](#column-string)   | string |    yes     |       -       |
+|   [regexp](#regexp-string)   | string |    yes     |       -       |
+
+#### database [string]
+源表数据库名
+#### table [string]
+源表数据库中的表名
+#### column [string]
+要检查的列
+#### regexp [string]
+正则表达式
+
+### 配置文件例子
+```
+{
+    "metricType": "column_in_enums",
+    "metricParameter": {
+        "database": "datavines",
+        "table": "dv_catalog_entity_instance",
+        "column": "type"
+        "regexp":"\d"
+    }
+}
+```
+
+### 检查过程中自动生成的 `SQL` 语句
+
+检查过程会用到的一些自动生成的参数，用于区分各个检查规则。
+- uniqueKey
+    - 会根据每个规则的配置信息生成一个唯一键值
+- invalidate_items_table
+    - 会创建一个视图用于存储中间表数据，中间表数据一般为命中规则的数据，即为错误数据，该视图的名字生成规则为 invalidate_items_${uniqueKey}
+
+中间表 invalidate_items_${uniqueKey}
+```
+select * from ${table} where (${column} not regexp '${regexp}') and ${filter}
+```
+计算实际值的 `SQL`，输出的实际值是列的值没有匹配上正则表达式的列的行数
+```
+select count(1) as actual_value_"+ uniqueKey +" from ${invalidate_items_table}
+```
+
+## 使用案例
+
+### 场景
+...
+
+### 思路
+...
+
+### 步骤
+...
diff --git a/docs/04-features/02-metric/01-single-table-metric/13-column-match-regex.md b/docs/04-features/02-metric/01-single-table-metric/13-column-match-regex.md
@@ -0,0 +1,68 @@
+---
+id: 'column-match-regex'
+title: 'column_match_regex'
+---
+## 使用方法
+- 点击创建规则作业，选择数据质量作业
+- 进入作业页面选择 正则表达式[匹配]检查 规则
+- 选择要检查的数据源信息
+
+## 参数介绍
+### Options
+
+|             name             |  type  |  required  | default value |
+|:----------------------------:|:------:|:----------:|:-------------:|
+| [database](#database-string) | string |    yes     |       -       |
+|    [table](#table-string)    | string |    yes     |       -       |
+|   [column](#column-string)   | string |    yes     |       -       |
+|   [regexp](#regexp-string)   | string |    yes     |       -       |
+
+#### database [string]
+源表数据库名
+#### table [string]
+源表数据库中的表名
+#### column [string]
+要检查的列
+#### regexp [string]
+正则表达式
+
+### 配置文件例子
+```
+{
+    "metricType": "column_in_enums",
+    "metricParameter": {
+        "database": "datavines",
+        "table": "dv_catalog_entity_instance",
+        "column": "type"
+        "regexp":"\d"
+    }
+}
+```
+
+### 检查过程中自动生成的 `SQL` 语句
+
+检查过程会用到的一些自动生成的参数，用于区分各个检查规则。
+- uniqueKey
+    - 会根据每个规则的配置信息生成一个唯一键值
+- invalidate_items_table
+    - 会创建一个视图用于存储中间表数据，中间表数据一般为命中规则的数据，即为错误数据，该视图的名字生成规则为 invalidate_items_${uniqueKey}
+
+中间表 invalidate_items_${uniqueKey}
+```
+select * from ${table} where (${column} regexp '${regexp}') and ${filter}
+```
+计算实际值的 `SQL`，输出的实际值是列的值匹配上正则表达式的列的行数
+```
+select count(1) as actual_value_"+ uniqueKey +" from ${invalidate_items_table}
+```
+
+## 使用案例
+
+### 场景
+...
+
+### 思路
+...
+
+### 步骤
+...
diff --git a/docs/04-features/02-metric/01-single-table-metric/14-column-max.md b/docs/04-features/02-metric/01-single-table-metric/14-column-max.md
@@ -0,0 +1,58 @@
+---
+id: 'column-max'
+title: 'column_max'
+---
+## 使用方法
+- 点击创建规则作业，选择数据质量作业
+- 进入作业页面选择 最大值检查 规则
+- 选择要检查的数据源信息
+
+## 参数介绍
+### Options
+
+|             name             |  type  |  required  | default value |
+|:----------------------------:|:------:|:----------:|:-------------:|
+| [database](#database-string) | string |    yes     |       -       |
+|    [table](#table-string)    | string |    yes     |       -       |
+|   [column](#column-string)   | string |    yes     |       -       |
+
+#### database [string]
+源表数据库名
+#### table [string]
+源表数据库中的表名
+#### column [string]
+要检查的列
+
+### 配置文件例子
+```
+{
+    "metricType": "column_avg",
+    "metricParameter": {
+        "database": "datavines",
+        "table": "dv_catalog_entity_instance",
+        "column": "type"
+    }
+}
+```
+
+### 检查过程中自动生成的 `SQL` 语句
+
+检查过程会用到的一些自动生成的参数，用于区分各个检查规则。
+- uniqueKey
+    - 会根据每个规则的配置信息生成一个唯一键值
+
+计算实际值的 `SQL` 
+```
+select max(${column}) as actual_value_${uniqueKey} from ${table} where ${filter}
+```
+
+## 使用案例
+
+### 场景
+...
+
+### 思路
+...
+
+### 步骤
+...