Flink之自定义JDBC Sink 写入mysql数据

本文介绍如何使用Apache Flink处理传感器数据,并通过JDBC将处理后的数据写入MySQL数据库。具体步骤包括:从文件读取数据,转换数据为SensorReading对象,使用自定义的JDBC Sink Function将数据写入数据库,实现数据的实时存储。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

先建表
在这里插入图片描述
数据

sensor_1, 1547718199, 35.80018327300259
sensor_6, 1547718201, 15.402984393403084
sensor_7, 1547718202, 6.720945201171228
sensor_10, 1547718205, 38.101067604893444
sensor_1, 1547718206, 35.1
sensor_1, 1547718207, 35.6

结果
在这里插入图片描述

package com.flink.sourceAndSink.sink

import java.sql.{Connection, DriverManager, PreparedStatement}

import com.flink.sourceAndSink.SensorReading
import org.apache.flink.configuration.Configuration
import org.apache.flink.streaming.api.functions.sink.{RichSinkFunction, SinkFunction}
import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}

/**
 * Created by Shi shuai RollerQing on 2019/12/19 15:16
 */
object JdbcSink {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    import org.apache.flink.api.scala._
    //1.读取文件到kafka的sinkTest的topic 一般只是测试使用
    val streamFromFile: DataStream[String] = env.readTextFile("C:\\Users\\HP\\IdeaProjects\\sparkCore\\flink\\src\\main\\resources\\sensor.txt")
    val dataStream: DataStream[SensorReading] = streamFromFile.map(data => {
      val dataArray = data.split(",")
      SensorReading(dataArray(0).trim, dataArray(1).trim.toLong, dataArray(2).trim.toDouble)
    })

    //sink
    dataStream.addSink(new MyJdbcSink())

    env.execute("mysql sink test")
  }
}
//因为SinkFunction的功能比较少 所以使用rich的SinkFunction
class MyJdbcSink() extends RichSinkFunction[SensorReading] {
  //定义sql连接、预编译器
  var conn: Connection = _
  var insertStmt: PreparedStatement = _
  var updateStmt: PreparedStatement = _

  //初始化 、 创建连接 、 和 预编译语句
  override def open(parameters: Configuration): Unit = {
    super.open(parameters)
    conn = DriverManager.getConnection("jdbc:mysql://hadoop01:3306/test", "root", "root")
    insertStmt = conn.prepareStatement("insert into temperatures (sensor, temp) values (? , ?)")
    updateStmt = conn.prepareStatement("update temperatures set temp  = ? where sensor = ?")
  }

  // 调用连接 执行sql
  override def invoke(value: SensorReading, context: SinkFunction.Context[_]): Unit = {
    // 执行更新语句
    updateStmt.setDouble(1, value.temperature)
    updateStmt.setString(2, value.id)
    updateStmt.execute()
    //如果update没有更新 即 没有查询到数据 即 没有该id 那么执行插入
    if (updateStmt.getUpdateCount == 0) {
      insertStmt.setString(1, value.id)
      insertStmt.setDouble(2, value.temperature)
      insertStmt.execute()
    }
  }

  //关闭时做清理工作
  override def close(): Unit = {
    insertStmt.close()
    updateStmt.close()
    conn.close()
  }
}
### 实现自定义 Flink 写入 MySQL 方法 为了实现自定义Flink数据写入 MySQL 的功能,可以采用多种策略优化性能并确保事务一致性。以下是具体实现方案: #### 使用 JdbcSinkFunction 进行单条记录插入 当每批次仅需处理少量数据时,可直接利用 `JdbcSink` 提供的基础接口完成操作。 ```java // 定义 Sink 函数用于向 MySQL 插入数据 public static class MyJdbcSink extends JdbcSink<String> { public MyJdbcSink(JdbcStatementBuilder<String> statementBuilder, String query) { super(statementBuilder, query); } } DataStream<String> stream = ...; // 假设这是待处理的数据流 stream.addSink(new JdbcSink<>( (conn, str) -> { PreparedStatement ps = conn.prepareStatement("INSERT INTO my_table VALUES (?)"); ps.setString(1, str); }, "jdbc:mysql://localhost:3306/mydb", "root", "password" )); ``` 此部分代码展示了如何创建一个简单的 JDBC sink 来逐条插入字符串类型的元素[^1]。 #### 支持批量提交以提高效率 对于大规模并发场景下频繁的小规模更新请求,建议通过收集一定数量的数据后再统一提交至数据库的方式减少 I/O 开销。 ```java // 自定义 RichSinkFunction 类支持批量加载 public class BatchMysqlWriter extends RichSinkFunction<List<MyData>> { private transient Connection connection; @Override public void open(Configuration parameters) throws Exception { super.open(parameters); Properties configProperties = new Properties(); configProperties.setProperty("user","username"); configProperties.setProperty("password","pwd"); this.connection = DriverManager.getConnection( "jdbc:mysql://host:port/dbname?useSSL=false&serverTimezone=UTC", configProperties); // 设置自动提交关闭以便手动控制事物边界 if (!this.connection.getAutoCommit()) { throw new RuntimeException("Connection should not be in auto-commit mode."); } else { this.connection.setAutoCommit(false); } } @Override public void invoke(List<MyData> value, Context context) throws SQLException { try ( PreparedStatement pstmt = connection.prepareStatement("INSERT INTO table_name (...) VALUES (?, ?, ...)")) { for(MyData data : value){ int i = 1; pstmt.setObject(i++, data.getFieldA()); ... pstmt.addBatch(); } pstmt.executeBatch(); connection.commit(); } catch (SQLException e) { connection.rollback(); throw e; } } @Override public void close() throws Exception { super.close(); if(this.connection != null && !this.connection.isClosed()){ this.connection.close(); } } } ``` 这里实现了带有批量插入特性的 `RichSinkFunction` 子类,在每次调用 `invoke()` 方法前会先积累一批次的数据再一次性发送给目标表;同时开启了显式的事务管理机制防止中途失败造成脏数据残留问题[^2]. #### 配置连接池提升资源利用率 考虑到长时间运行的应用可能会遇到过多闲置链接占用内存的情况,引入第三方库如 HikariCP 或 Apache DBCP 可有效缓解此类困扰。 ```xml <!-- Maven依赖配置 --> <dependency> <groupId>com.zaxxer</groupId> <artifactId>HikariCP</artifactId> <version>5.0.0</version> </dependency> // Java代码片段展示HikariDataSource初始化过程 private final DataSource dataSource; { HikariConfig hikariConfig = new HikariConfig(); hikariConfig.setDriverClassName("com.mysql.cj.jdbc.Driver"); hikariConfig.setUsername("..."); hikariConfig.setPassword("..."); hikariConfig.setMaximumPoolSize(10); hikariConfig.setMinimumIdle(5); hikariConfig.setIdleTimeout(Duration.ofMinutes(1).toMillis()); hikariConfig.setJdbcUrl("jdbc:mysql://.../..."); dataSource = new HikariDataSource(hikariConfig); } ``` 上述 XML 和 Java 片段共同描述了一个典型的基于 HikariCP 构建高效稳定的数据库访问层实例[^3].
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值