lmalds李麦迪-CSDN博客

原创 Flink+doris实现实时OLAP数据分析

Flink+doris实现实时数据分析Apache Doris 在京东搜索实时 OLAP 中的应用实践

2020-12-09 09:30:58 2599 9

原创数据分析的新形式--自然语言搜索：NL2SQL2Graph

数据分析的新形式--自然语言搜索：NL2SQL2Graph背景定位分析能力模型调研实现背景自然语言转SQL，再将SQL结果集转图形，在NLP领域是个非常不错的研究方向，这样做的好处在我看来，主要有以下点：1、数据分析人员无需写Code（SQL）实现取数，搜索数据，灵活方便，支持快速多变的adhoc查询2、相对于报表和BI系统，数据分析人员主动探索数据，而不是被动接收相对固定的报表3、搜...

2019-03-18 11:50:22 4235 5

原创分享一个实时数仓系统--SnappyData的博客与中文社区

分享一个实时OLAP系统–SnappyData的博客与中文社区SnappyData中文博客 SnappyData中文社区

2018-04-23 15:29:40 6466 3

原创 SnappyData企业版中off-heap功能及与on-heap功能的对比

目录：1、SnappyData OSS的功能介绍2、SnappyData企业版的额外功能3、企业版off-heap功能的对比与测试4、结论5、参考1、SnappyData OSS的功能介绍OSS是Open Source SnappyData Community Edition的简称，其是一个基于Apache 2.0的开源的分布式数据库产品，包含了如下的功能...

2018-03-05 15:04:09 1226

原创 SnappyData-一个构建在Spark上的支持实时HTAP场景的解决方案

1、设计目标1、实时的OLTP+OLAP型的操作2、数据规模在50TB-100TB以下：太大规模的数据(PB规模)，还要求实时出结果的场景，并不是SnappyData的设计目标。3、微批的流失写入：实时数据的写入最好按批次写入。例如列表上的频繁的基于点的update，效率并不是很高。2、数据流上图介绍了流数据的注入以及

2018-01-26 16:41:52 3494 3

原创 SnappyData--一个统一OLTP+OLAP+流式写入的内存分布式数据库

一、背景：阔别个人博客有大半年了，这大半年来我从一个all in flink的角色转变到了一个兼顾实时流式处理与实时OLAP处理的角色。最近由于工作需要，在关注实时的OLTP+OLAP的HTAP场景的数据处理，优先保证低延迟的OLAP查询。说到这里，很容易让人想到Google的F1、Spanner，开源领域的代表TiDB。TiDB是个分布式的MySQL，对OLTP的支持很好

2018-01-19 18:50:50 6803 8

原创 Flinkspector--Flink单元测试的开源框架

Flink unit tests

2017-07-21 18:08:14 2553

原创 Flink流计算编程--Flink扩容、程序升级前后的思考

Flink扩容

2017-06-23 18:00:20 6335 3

翻译 A Year of Blink at Alibaba: Apache Flink in Large Scale Production--翻译

Flink

2017-05-19 17:11:18 1360

原创 Flink Table & SQL API--动态表与Redo和Undo

flinkSQL

2017-05-03 15:01:45 4105

原创 Flink流计算编程--看看别人怎么用Session Window

FlinkSession windowearly trigger

2017-04-05 18:44:54 7493 4

翻译精通Apache Flink读书笔记--1、2

FlinkMaster Apache Flink

2017-03-06 14:01:45 19818 3

原创精通Apache Flink读书笔记

Mastering Apache Flink

2017-03-06 11:33:05 4740 1

原创 Flink流计算编程--Flink中allowedLateness详细介绍及思考

FlinkallowedLateness

2017-02-17 11:06:39 11078 3

原创解读Flink中轻量级的异步快照机制--Flink 1.2 源码

FlinkABSBarrier

2017-02-09 16:17:43 3543 1

原创解读Flink中轻量级的异步快照机制--论文

FlinkSnapshotABS

2017-02-08 13:55:21 6954

原创回顾2016--Apache Flink流处理在生产中的实践

Flink

2017-01-12 18:15:05 5985

原创 Apache Beam正式成为Apache的顶级项目

Apache BeamApache Flink

2017-01-11 18:24:12 2313

原创通过Time、Window与Trigger比较Google Cloud DataFlow与Apache Flink的区别

FlinkDataFlow

2017-01-10 18:16:21 3164

原创 Gobblin部署--standalone模式

Gobblin standalonekafka

2017-01-03 13:52:53 2753

原创 Gobblin--一个用于Hadoop的统一"数据抽取框架"

数据整合HDFSKafka

2016-12-30 14:13:58 11991 1

原创 Flink Configuration简介

Flink configuration

2016-12-19 14:37:38 16213

转载 Flink on Yarn模式启动流程分析(Flink 1.1)

Flink yarn

2016-12-15 13:44:06 1989 1

原创 Flink源码解读--FlinkKafkaProducer09

Flink kafka producer

2016-12-01 16:58:25 4196

原创 Flink流计算与时序数据库Influxdb+grafana

flink influxdbgrafana

2016-11-30 11:30:18 7975

原创 Flink源码解读--FlinkKafkaConsumer09

Flink kafka consumer

2016-11-23 16:12:21 7597

原创 Flink Jobmanager HA配置（standalone）

Flink standalone HA

2016-10-31 12:03:14 8033 1

原创 Flink流计算编程--watermark（水位线）简介

1、watermark的概念watermark是一种衡量Event Time进展的机制，它是数据本身的一个隐藏属性。通常基于Event Time的数据，自身都包含一个timestamp，例如1472693399700（2016-09-01 09:29:59.700），而这条数据的watermark时间则可能是：watermark(1472693399700) = 1472693396700(2016

2016-09-30 12:20:44 64215 46

原创 Flink流计算编程--Session Window实战

FlinkSession Window

2016-09-28 18:56:11 8013 2

原创 Scala读取文件存为多个value的HashMap

scala HashMap MultiMap

2016-09-21 17:58:37 4244

空空如也

空空如也