Flink SQL填坑记3：两个kafka数据关联查询

IT源哥

于 2024-03-26 19:52:09 发布

阅读量659

点赞数

分类专栏：源哥讲互联网技术架构设计和软件设计大数据、微服务、SaaS、CRM、在线客服、呼叫中心技术文章标签： flink sql kafka

本文链接：https://blog.csdn.net/sunlen/article/details/137055714

版权

源哥讲互联网技术同时被 3 个专栏收录

58 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

大数据、微服务、SaaS、CRM、在线客服、呼叫中心技术

37 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

架构设计和软件设计

35 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文记录了一个项目中使用Flink SQL处理Kafka数据关联查询的问题。最初尝试直接在Kafka上进行Join操作导致性能下降，随后通过转换为upsert-kafka解决数据去重和性能问题，避免了在MySQL上的性能瓶颈。文中详细描述了错误的建表语句及其引发的异常，以及修正后的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在一个项目中，实时生成的统计数据需要关联另外一张表（并非维表），需要统计的数据表是Kafka数据，而需要关联的表，由于不是维度，不能按照主键查询，所以如果放在MySQL上，将存在严重的性能问题，这个时候我想到用将两张表的数据都生成为Kafka数据，然后进行Join操作。中途发现这种性能特别差，而且表变更会产生多条kakfa记录，导致计算越来越来，最后改成upsert-kafka，下面记录下处理过程。

刚开始用kafka，建表语句如下：

Create Table `kafka_t_test1` (
  `f_id` bigint,
  `f_name` string,
  PRIMARY KEY (`f_corp_id`,`f_id`) NOT ENFORCED
  ) WITH (
    'connector' = 'kafka',
    'topic' = 't_test',
    'pr