
delta
文章平均质量分 89
鸿乃江边鸟
Apache Spark Contributor
专注于技术的dotaer
展开
-
Delta数据湖upsert调优---1000多列表的调优
最终会调用反射去获取字段,要知道反射是比较消耗时间的,要知道我们现在是有1000多个字段,如果每一行都会被反射1000次,再加上几十亿行的数据,这个计算速度肯定是比较慢的,而且为了达到更新的效果,我们还调用了。目前在我们公司遇到了一个任务写delta(主要是的。delta的MergeIntoCommand。操作,这又增加了cpu的计算(1000多次)set该schema的字段,其他的字段不变。实现的,该操作的的具体实现,可以参考。操作),写入的时间超过了。原创 2023-07-04 23:49:27 · 373 阅读 · 0 评论 -
Delta Lake中CDC的实现
根据以上的分析,可以知道目前的CDF只是在Delte层级做了反馈,如果说想要在Flink层达到CDC的效果,还得有个中间层,把delta里的CDF的数据给读取出来,转换Flink 内部形式的ChangelogMode CDC格式(比如说。CDF是能让表能够输出数据表变化的能力,CDC是能够捕获和识别数据的变化,并能够将变化的数据交给下游做进一步的处理。是判断过滤条件是否是在元数据层能够囊括,如果可以的话,就通过。我们来分析一下是怎么做到数据行级别的CDF的。这里列举该表的所有文件,并把所有的文件标识为。原创 2022-12-11 08:05:16 · 714 阅读 · 0 评论