大数据应用场景下用户在资产平台查询大数据量(比如400亿数据)的表进行展示,产品在数据源模块做了查询并执行orderby进行分页,大数据量加载到磁盘导致了磁盘爆满,会造成集群故障。为避免该问题出现,需要对产品的数据源管理、数据资产、元数据模块关于数据查询展示进行优化,保证大数据量下环境不会出现故障。
在数据源页面新建一个大数据连接池,此处我们以clickhouse 数据库为例。输入对应的数据库链接地址后,勾选连接池编辑框中的高级选项,在扩展属性中添加参数dynamicLoadData,当此参数的值为1时,则该大数据连接池开启了数据的动态加载。
点击测试链接,连通成功后点击确定即可。
我们可查看该数据源中的库表,发现查询页面数据的展示与常规不同,设置了动态加载的连接池在查看数据时,数据不排序不显示数据的条数,同时分页条只有首页和上一页、下一页的按钮,每一页显示的数据都是随机加载的。
注意事项:
1.支持使用动态加载参数的数据库:
impala、maxcompute、hive、Hbase、petabase、星环、clickhouse、mongoDB、vertica。
2动态加载所作用的模块:
【数据源】、【数据集】、【数据质量】、【数据资产】【数据服务】、【生命周期】、【数据安全】、【元数据】中,采集的大数据库时可配置参数,启用动态加载数据。该扩展参数配置后,不影响元数据的采集,只影响产品的页面查询。
3.产品中展示数据页面若是用的组件带有排序、过滤功能,则排序、过滤的按钮隐藏。
请先登录