- 博客(61)
- 收藏
- 关注
原创 Flink+doris实现实时OLAP数据分析
Flink+doris实现实时数据分析Apache Doris 在京东搜索实时 OLAP 中的应用实践
2020-12-09 09:30:58
2599
9
原创 数据分析的新形式--自然语言搜索:NL2SQL2Graph
数据分析的新形式--自然语言搜索:NL2SQL2Graph背景定位分析能力模型调研实现背景自然语言转SQL,再将SQL结果集转图形,在NLP领域是个非常不错的研究方向,这样做的好处在我看来,主要有以下点:1、数据分析人员无需写Code(SQL)实现取数,搜索数据,灵活方便,支持快速多变的adhoc查询2、相对于报表和BI系统,数据分析人员主动探索数据,而不是被动接收相对固定的报表3、搜...
2019-03-18 11:50:22
4235
5
原创 分享一个实时数仓系统--SnappyData的博客与中文社区
分享一个实时OLAP系统–SnappyData的博客与中文社区SnappyData中文博客 SnappyData中文社区
2018-04-23 15:29:40
6466
3
原创 SnappyData企业版中off-heap功能及与on-heap功能的对比
目录:1、SnappyData OSS的功能介绍2、SnappyData企业版的额外功能3、企业版off-heap功能的对比与测试4、结论5、参考1、SnappyData OSS的功能介绍OSS是Open Source SnappyData Community Edition的简称,其是一个基于Apache 2.0的开源的分布式数据库产品,包含了如下的功能...
2018-03-05 15:04:09
1226
原创 SnappyData-一个构建在Spark上的支持实时HTAP场景的解决方案
1、设计目标1、实时的OLTP+OLAP型的操作2、数据规模在50TB-100TB以下:太大规模的数据(PB规模),还要求实时出结果的场景,并不是SnappyData的设计目标。3、微批的流失写入:实时数据的写入最好按批次写入。例如列表上的频繁的基于点的update,效率并不是很高。2、数据流 上图介绍了流数据的注入以及
2018-01-26 16:41:52
3494
3
原创 SnappyData--一个统一OLTP+OLAP+流式写入的内存分布式数据库
一、背景: 阔别个人博客有大半年了,这大半年来我从一个all in flink的角色转变到了一个兼顾实时流式处理与实时OLAP处理的角色。 最近由于工作需要,在关注实时的OLTP+OLAP的HTAP场景的数据处理,优先保证低延迟的OLAP查询。说到这里,很容易让人想到Google的F1、Spanner,开源领域的代表TiDB。TiDB是个分布式的MySQL,对OLTP的支持很好
2018-01-19 18:50:50
6803
8
翻译 A Year of Blink at Alibaba: Apache Flink in Large Scale Production--翻译
Flink
2017-05-19 17:11:18
1360
原创 通过Time、Window与Trigger比较Google Cloud DataFlow与Apache Flink的区别
FlinkDataFlow
2017-01-10 18:16:21
3164
原创 Flink流计算编程--watermark(水位线)简介
1、watermark的概念watermark是一种衡量Event Time进展的机制,它是数据本身的一个隐藏属性。通常基于Event Time的数据,自身都包含一个timestamp,例如1472693399700(2016-09-01 09:29:59.700),而这条数据的watermark时间则可能是:watermark(1472693399700) = 1472693396700(2016
2016-09-30 12:20:44
64215
46
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人