xyz2011-CSDN博客

原创 Doris的SQL原理解析

Apache Doris是一个基于MPP架构的高性能、实时的分析型数据库，能够较好的满足报表分析、即席查询、统一数仓构建等使用场景。Doris整体架构非常简单，只有FE和BE两类进程。FE主要负责用户请求的接入、查询解析规划、元数据的管理、节点管理相关工作。BE主要负责数据存储、查询计划的执行。在 Doris 的存储引擎中，用户数据被水平划分为若干个数据分片（Tablet，也称作数据分桶）。每个Tablet 包含若干数据行。多个 Tablet 在逻辑上归属于不同的分区（Partition）。

2024-12-27 14:00:00 328

原创 Flink高频面试题，来试试你能过关吗？

Flink 核心是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎，Flink 提供了诸多更高抽象层的 API 以便用户编写分布式任务：DataSet API，对静态数据进行批处理操作，将静态数据抽象成分布式的数据集，用户可以方便地使用 Flink 提供的各种操作符对分布式数据集进行处理，支持 Java、Scala 和 Python。

2024-12-23 21:01:33 1203

原创主数据的管理

主数据管理是集方法、标准、流程、制度、技术和工具为一体的解决方案。方法是指主数据梳理、识别、定义、管理、清洗、集成和共享所需要的一系列咨询和管理方法。标准涵盖了主数据的分类、编码、建模、清洗、集成、管理、运营等的相关标准和规范。流程是指规范主数据生产、管理和使用的相关流程，例如主数据新增流程、主数据变更流程、主数据冻结流程等。制度确保主数据的一致性、正确性、完整性，规范主数据的管理、维护、运营的相关管理办法、规定和考核手段。

2024-12-17 17:17:16 350

原创 Flink State面试题和参考答案-（下）

面试中flink的状态机制和checkpoint关系

2024-12-16 16:00:00 255

原创 Flink State面试题和参考答案-（上）

FlinkKeyed State 是一种分区状态，它为数据流中的每个键维护一个独立的状态副本。这意味着在有状态的流处理中，每个键都会关联一个状态信息，并且这个状态信息只与该键相关。Keyed State 使得 Flink 能够在每个键的上下文中独立地进行状态操作，如更新、查询等。Keyed State 的常见用例包括基于键的聚合，例如计算每个用户的总交易金额。Operator State 是一种全局状态，它属于 Flink 程序中的操作符实例，而不是与特定的键相关联。

2024-12-15 20:30:00 246

原创 Hadoop中几种列式存储的区别和联系

ORC（Optimized Row Columnar）格式，起源于Hive社区，并随后成为Apache软件基金会旗下的一个项目，代表了一种高效的列式存储方案。这种格式主要针对数据仓库和大规模数据分析应用而设计，其高性能和自定义类型支持的特性，使得它在处理复杂数据结构和大规模数据集时表现出色。随着大数据技术的不断发展，ORC格式逐渐成为数据科学家和工程师们在进行数据分析和处理时的重要选择之一。ORC格式的发展历程与Hadoop生态系统的壮大紧密相连。

2024-12-10 21:54:22 367

原创 Flink双流join优化

这一期的面试题主要是介绍FlinkJoin 的应用场景为什么流式计算中提到 Join 小伙伴萌就怕呢？带大家看一遍本文思路Flink Join 解决方案：Flink Window JoinFlink Join 解决方案：Flink Interval JoinFlink Join 解决方案：Flink Regular Join上述 3 种解决方案各有优劣，有没有什么共性的问题可以优化？Flink Join 优化方案：同 key 共享 State。

2024-11-29 09:45:26 271

原创 Flink的双流join理解

为什么我的双流join时间到了却不触发，一直没有输出检查一下watermark的设置是否合理，数据时间是否远远大于watermark和窗口时间，导致窗口数据经常为空state数据保存多久，会内存爆炸吗state自带有ttl机制，可以设置ttl过期策略，触发Flink清理过期state数据。建议程序中的state数据结构用完后手动clear掉。我的双流join倾斜怎么办join倾斜三板斧: 过滤异常key、拆分表减少数据、打散key分布。当然可以的话我建议加内存！加内存！加内存！！

2024-11-29 09:25:57 383

原创 Doris基础知识FAQ

short key index 前缀索引，是在key（aggregate key、uniq key 和 duplicate key）排序的基础上，实现的一种根据给定前缀列，快速查询数据的索引方式。这个行数为索引粒度默认为 1024 行，可配置。为了分桶裁剪，并且避免数据倾斜，同时也为了分散读 IO，提升查询性能，可以将 Tablet 的不同副本分散在不同机器上，查询时可以充分发挥不同机器的 IO 性能。在查询一个 Segment 中的数据时，根据执行的查询条件，会对首先根据字段加索引的情况对数据进行过滤。

2024-11-24 19:28:57 169

原创 Doris-join的使用与优化

除了通过索引来加速过滤查询的数据， Doris 中还额外加入了动态过滤机制，即 Runtime Filter。在多表关联查询时，我们通常将右表称为 BuildTable、左表称为 ProbeTable，左表的数据量会大于右表的数据。在实现上，会首先读取右表的数据，在内存中构建一个 HashTable（Build）。之后开始读取左表的每一行数据，并在 HashTable 中进行连接匹配，来返回符合连接条件的数据（Probe）。而。

2024-11-24 19:26:37 444

原创 Hadoop-几种列式存储比较

介绍Hadoop几种列式存储的一些理论及区别，帮助大家在平时的工作中合理的选择格式存储

2024-11-20 21:25:03 304

原创 Flink面试题-初级

Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务：DataSet API，对静态数据进行批处理操作，将静态数据抽象成分布式的数据集，用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理，支持Java、Scala和Python。

2024-11-20 21:17:29 75

原创 Hive基础面试-如何理解复用率的

事实表（Fact Table）是指存储有事实记录的表，如系统日志、销售记录等；事实表的记录在不断地动态增长，所以它的体积通常远大于其他表。事实表作为数据仓库建模的核心，需要根据业务过程来设计，包含了引用的维度和业务过程有关的度量。可加：最灵活最有用的事实是完全可加，可加性度量可以按照与事实表关联的任意维度汇总。比如消费总金额半可加：半可加度量可以对某些维度汇总，但不能对所有维度汇总。差额是常见的半可加事实，除了时间维度外，他们可以跨所有维度进行操作。(比如每天的余额加起来毫无意义)

2024-11-19 17:20:46 411

原创 Flink基础面试题

Flink一些基础面试题，总结出来分享给大家

2024-11-19 13:20:05 1083

原创认真阅读hadoop源码

从新复习hadoop,认真阅读hadoop源码，有兴趣的朋友可以加我:282215036

2012-11-01 16:00:17 307

awk平时使用心得

1、cat exe1 | awk '{a[$1]+=$2}END{for(i in a) print i,a[i]}'aaa 6bbb 2ccc 42、awk '{a[$0]++}END{l=asorti(a);for(i=1;i<l;i++)print a[i]}' exe2aaabbccdddefffkmmnn3、[@83_20 exercise]$ awk '{a[$1]+...

2012-07-09 17:49:31 587

原创 Java并发编程总结---Hadoop核心源码实例解读

程序设计需要同步(synchronization),原因：1）复杂的功能要求的需要使用多线程编程，线程之间存在读写共享变量。2）读写共享变量(shared mutual variable),JVM的内存模型(Memory model: decide when and how changes made by one thread become visuble to others)受到其它因素干扰。3...

2012-04-01 15:46:11 318

原创铁道部售票网站怎么啦？

乐淘CTO李勇：库存同步是难点我的判断，除了一般的优化之外，最大的难点应该是库存同步问题。推测应该有一个全国唯一的核心库，负责维护所有车次所有座位的票务状态，完成库存查询、锁定、出入库操作。之前只是对内部的各售票点开放（估计有几万个），波动小的情况。突然对公众开放就出问题了，会达到百万并发，根本无法承受。做这种系统的，应该是跟铁道部有多年合作经验，善于做内部系统的集成公司（网上看...

2012-01-10 10:25:05 223

原创 eclipse启动报错jvm terminated. Exit code=1

转载链接： http://wxmfly.iteye.com/blog/233421

2011-10-11 08:55:28 234

原创做有气质的男人

这里提到男人应该具有的一些品质吧，偶然看到的，觉得说得有道理（尽管没做到的还很多），忍不住转一下。一：沉稳（1）不要随便显露你的情绪。（2）不要逢人就诉说你的困难和遭遇。（3）在征询别人的意见之前，自己先思考，但不要先讲。（4）不要一有机会就唠叨你的不满。（5）重要的决定尽量有别人商量，最好隔一天再发布。（6）讲话不要有任何的慌张，走路也是。二：细心（1）对身边发生的事情，常思考它们的因果关系。（...

2011-09-29 09:39:25 306 1

加油啦！

8月18日入职搜狐，负责汽车事业部数据。看来压力不小啊，加油干吧！

2011-09-22 16:02:19 160

ireport中获取当前时间

一。 iReport 中获取系统当前时间1，选择TextField类型为 java.util.Date2，在pattern中点在Date中选择你要的日期格式如下图 3，在TextField Expression中写 java.util.Calendar.getInstance().getTime() 如下图 ...

2011-08-28 11:53:39 369

ireport引java bean database

今天帮一同事调试程序，他们的报表工具用的是ireport4.0.2,在使用java bean 作为数据源时一直没找到，原因很简单：就是没找对所编译的class 路径。如果使用的eclipse来编译的话，一般class文件都放在项目/bin/class 下面截一个图：最下面的一个是class 所存放的地方 ...

2011-08-27 10:38:37 187

原创知足最好

钱多钱少，够吃就好。人丑人美，顺眼就好。人老人少，健康就好。家穷家富，和气就好。老公晚归，回来就好。老婆唠叨，顾家就好。孩子从小，就要教好。博士也好，卖菜也好。长大以后，心安就好。房屋大小，能住就好。名不名牌，能穿就好。两轮四轮，能驾就好。老板不好，能忍就好。一切烦恼，能解就好。坚持执着，放下最好。人的一生，平安就好。不是有钱，一定会好。心好行好，命能改好。谁是谁非，天知就好。修福修慧，来世更好。...

2011-08-25 10:50:15 172

原创几个比较重要的句子

1.说话要用脑子,做事慎言,话多无益.讲话不要只顾一时痛快.信口开河,以为人家给你笑脸就是欣赏,没完没了的把掏心窝子的话都讲出来,结果让人家彻底摸清了家底.还偷笑你.2.遇事不要急于下结论,即便有了答案也要等等,也许有更好的解决方式,站在不同的角度就有不同答案,要学会换位思维.3.对小人一定要忍让,退一步海阔天空,实在不行把属于自己的空间也关给他们,站他们如莺燕舞般陶醉吧.大人大度量.惹着...

2011-08-25 10:49:39 230

使用hadoop的lzo问题!

使用lzo压缩替换hadoop原始的Gzip压缩。相比之下有如下特点：我们这使用的是hadoop客户端。1.压缩解压的速度很快2.lzo压缩是基于block分块的。这样，一个大文件(在hadoop上可能会占用多个block),就可以有多个 MapReduce并行来进行处理。虽然Lzo的压缩比没有Gzip高，不过由于其前2个特性，在Hadoop上使用Lzo还是能整体提升集群的性能的。能提高效率的即是...

2011-08-24 17:12:28 227

原创 hive中partition如何使用

网上有篇关于hive的partition的使用讲解的比较好，转载了：一、背景1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表，需要在create表的时候调用可选参数partitio...

2011-08-23 23:35:38 1146

hive中配置使用derby.

hive-default.xml<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:derby:;databaseName=metastore_db;create=true</value> 表示使用嵌入式的derby，create为true表示自动创建数...

2011-08-23 23:20:56 334

原创 hive中UDF和UDAF使用说明

Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：a）文件格式：Text File，Sequence Fileb）内存中的数据格式： Java Integer/St...

2011-08-23 23:04:54 625

原创 hive的distribute by应用

hive中的distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列，根据reduce的个数进行数据分发，默认是采用hash算法。对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。hive> select * from test09;OK100 tom...

2011-08-23 17:08:59 787

原创 hive的sort by应用

在hive中不光有order by操作，还有个sort by操作。两者执行的都是排序的操作，但有存在很大的不同。还是用上次order by的例子来说明。测试用例hive> select * from test09;OK100 tom200 mary300 kate400 timTime taken: 0.061 secondshive> select * from test09...

2011-08-23 17:02:38 483

原创 hive的order by应用

hive中的order by也是对一个结果集合进行排序，但是和关系型数据库又所有不同。这不同的地方也是两者在底层架构区别的体现。hive的参数hive.mapred.mode是控制hive执行mapred的方式的，有两个选项：strict和nonstrict，默认值是nonstrict。这个两个值对order by的执行有着很大的影响。测试用例hive> select * from ...

2011-08-23 16:56:41 214

原创 solr是如何存储索引的

我发现一直理解错了，我一直以为分布式索引和分布式搜索是两个不同的事情，其实是一样的.把索引分布在多台计算机上，不就是正好实现了分布式搜索吗?既然索引已经分布式存储了，,因为搜索就是基于索引的，那搜索就自然是分布式的啦。.前面看网上一些理解，一直以为分布式索引和分布式搜索是两个独立分开的过程，不知道理解的对不对? 调研了一下，发现索引文件的数据结构相当复杂，这个好像是每提交一次建索引，就...

2011-08-15 22:43:20 446

原创谈谈爬虫的设计

网络蜘蛛现在开源的已经有好几个了，Larbin，Nutch，Heritrix都各有用户之地，要做一个自己的爬虫要解决好多个问题，比如调度算法、更新策略、分布式存储等，我们来一一看一下。一个爬虫要做的事主要有以下这些从一个网页入口，分析链接，一层一层的遍历，或者从一组网页入口，或者从一个rss源列表开始爬rss；获取每个页面的源码保存在磁盘或者数据库里；遍历抓下来的网页进行处理，比如提取正文，消...

2011-08-07 22:27:43 172

jvm研究第一篇

最近在找工作，利用时间把jvm好好研究下，以前自己只是知道一点内存溢出，通常抛出OutOfmerry等等异常，印象中知道要改动-Xmx:*** 和-Xms这两个参数。其实它们里卖的药还挺深的，夜已经很深了快24:00了，今天先看个头，随后几篇文章会有更详细的阐述！...

2011-08-03 00:01:45 138

nutch-1.2在搜索HDFS过程中高并发的处理

紧接着昨天的一篇文档写下去。nutch-1.2结合hadoop搜索，在高并发的情况下，搜索的速度如何提升。1、其实通过看nutch-1.2中的NutchBean源码程序不难发现，它在搜索的时候，有几个实现类，RPCSearchBean、DistributedSearchBean、SolrSearchBean。在RPCSearchBean中还有LuceneSearchBean，和NutchBea...

2011-07-14 17:17:32 142

nutch-1.2结合hadoop分布式搜索

nutch-1.2结合hadoop分布式搜索。1、网上关于nutch分布式搜索的配置有些BLOG写的很详细了。有那些地方有疑问的，我这里也给一个连接<<nutch分布式搜索配置>>2、在这里主要想写下工作过程当中遇到的一些问题：------0-------------1-------------2-------------3-------java...

2011-07-13 10:50:18 197

原创大数据量的走向趋势

时至今日，“Bigdata”（大数据）时代的来临已经毋庸置疑，尤其是在电信、金融等行业，几乎已经到了“数据就是业务本身”的地步。在这其中，还挟裹着一个更为重要的趋势，即数据的社会化（Socialization of Data）。从博客论坛到游戏社区再到微博，从互联网到移动互联网再到物联网，人类以及各类物理实体的实时联网已经而且还将继续产生难以估量的数据。对于时刻关注市场走向的企业来讲，他们需要关...

2011-07-08 10:26:16 350

hive执行查询出现：Error while making MR scratch directory - check filesystem解决办法

进入 $hadoop_home vi conf/core-site.xml之前的配置是hdfs://192.168.10.145:9060但是在hive命令行下面查询一直出错：错误信息如下：FAILED: Hive Internal Error: java.lang.RuntimeException(Error while making MR scratch directory - c...

2011-07-07 15:34:28 303

原创 secondarynamenode配置使用总结

一、环境Hadoop 0.20.2、JDK 1.6、Linux操作系统二、背景上周五的时候，由于操作系统的原因，导致JDK出现莫名的段错误。无论是重启机器还是JDK重装都无济于事。更可悲的是，出问题的机器就是Master。当时心里就凉了半截，因为secondarynamenode配置也是在这个机器上（默认的，没改过）。不过万幸的是这个集群是测试环境，所以问题不大。借这个缘由，我将sec...

2011-07-07 08:37:13 1159