- 博客(468)
- 资源 (5)
- 收藏
- 关注

原创 郑州有哪些牛逼的互联网企业
大家好,我是一哥,最近看到有号主整理的武汉和成都的互联网公司,一哥也想整理一下郑州的“互联网”公司,在郑州其实叫“IT公司”更合适,希望能给一线城市想回郑州的读者一些帮助。虽然郑州互联网公...
2021-06-02 07:06:00
19716
9

原创 数据人如何提高核心竞争力
大家好,我是一哥,最近几个小伙伴私聊问题数据人的未来在哪里,天天提数,接需求,看不到头。今天结合自己的一些经验来给大家谈谈,每个人的路线不一样,仅供参考哈,有不同想法的可以在评论区留言让我...
2021-05-11 07:06:00
8491
1

原创 传统BI如何转大数据数仓
公众号推文规则变了,点击上方"数据社",设为星标后台回复【加群】,申请加入数据学习交流群大家好,我是一哥,前几天建了一个数据仓库方向的小群,收集了大家的一些问题,其中有...
2021-05-04 19:39:00
8394
2

原创 畅想数据湖
公众号推文规则变了,点击上方"数据社",设为星标后台回复【加群】,申请加入数据学习交流群大家好,我是一哥,周末有读者私聊我咨询了一些问题,遂想起了之前看过的一些关于数据...
2021-03-23 07:06:00
13615
3

原创 一哥答疑,如何面对繁杂的数据需求?
公众号推文规则变了,点击上方"数据社"关注,设为星标后台回复【加群】,申请加入数据学习交流群大家好,我是一哥,最近有一位数据新人小伙伴伴私聊我:在平时的工作中会面临着大...
2021-02-26 07:11:00
9496
2

原创 【一哥闲聊】程序员如何打破35岁魔咒
公众号推文规则变了,点击上方"数据社"关注,设为星标后台回复【加群】,申请加入数据学习交流群大家好,我是一哥。今天跟大家聊聊程序员35岁以后的方向怎么选?作为程序员,...
2021-01-28 07:07:00
12132
6

原创 Hadoop周边组件学习笔记
公众号推文规则变了,点击上方"数据社"关注,设为星标后台回复【加群】,申请加入数据学习交流群简介Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,它能让用户...
2021-01-18 07:24:26
11257

原创 三万字,Spark学习笔记
Spark 基础 Spark特性Spark使用简练优雅的Scala语言编写,基于Scala提供了交互式编程体验,同时提供多种方便易用的API。Spark遵循“一个软件栈满足不同应用场景...
2021-01-12 07:14:00
12426
2

原创 Flink学习笔记
Flink 基础 Flink特性流式计算是大数据计算的痛点,第1代实时计算引擎Storm对Exactly Once 语义和窗口支持较弱,使用的场景有限且无法支持高吞吐计算;Spark S...
2021-01-07 07:06:00
14375
6

原创 浅谈优秀工程师的成长因素
大家好,我是一哥。最近很多读者在问职业规划的一些问题,有刚毕业的学生,也有工作了3年以上的程序员,今天一起跟大家聊聊,如何成长为一枚优秀的工程师。一、自身因素作为一名程序员,要想成为一名...
2020-12-25 07:05:00
9696

原创 数据仓库建设规范(文档版)
大家好,我是一哥,今天有小伙伴在群问有没有数据仓库建设规范,一哥参与过两个数据仓库的规划,写过一些规范文档,今天分享给大家,大家可以借鉴,完成自己的规范!以下为完整的内容,供大家参考:1...
2020-12-09 07:00:00
17888
8

原创 一哥答疑:数据仓库如何确定主题域?
大家好,我是一哥,前几天跟一个朋友聊了一些数据中台建设的内容,针对数据仓库中主题域如何划分这个话题聊了很多。其实数据仓库建设的理论大家已经都知道了不少,也看过不少书,那么在实际建设数据仓...
2020-12-03 07:00:00
12243
1

原创 OLAP计算引擎怎么选?
大家好,我是一哥,今天聊一聊OLAP技术,一哥认为好的OLAP引擎应该具备以下三个条件:易开发、易维护、易移植。今天给大家分享一下常见的几种OLAP计算引擎,他们的特性、适用场景,优缺点...
2020-12-01 07:00:00
9759

原创 浅谈数据仓库质量管理规范
大家好,我是一哥,今天和大家聊一下如何管理数据仓库质量如何管理。一、 背景现在数据仓库层面的工作越来越多,开发人员也越来越多,如何保障数据准确性是一项非常重要的工作,,数据仓库的很多应...
2020-11-25 07:00:00
9497

原创 传统数仓如何转型大数据
大家好,我是一哥,前几天建了一个数据仓库方向的小群,收集了大家的一些问题,其中有个问题,一哥很想去谈一谈——现在做传统数仓,如何快速转到大数据数据呢?其实一哥知道的很多同事都是从传统数据...
2020-11-23 07:00:00
10054

原创 浅谈程序员的“内卷化”
一、什么是内卷化最近开始了解到一个很有意思的词——“内卷化”,如果你还不知道这个词,那就非常建议往下看。什么是内卷化?内卷化,亦称过密化,最初由文化人类学家亚历山大·戈登威泽提出,用于描述社会文化模式的变迁规律。当一种文化模式进入到最终的固定状态时,便逐渐局限于自身内部不断进行复杂化的转变,从而再也无法转化为新的文化形态。在中国语境下,内卷化概念最初闻名自历史学家杜赞奇对于古代中国经济生活的研究成果中。杜赞奇借用内卷化一词描述清代人口爆炸,廉价劳动力过剩,从而无法带动技术革新,使得古代中国的经济形态长期
2020-11-12 12:42:55
11309
6

原创 数据仓库的前世今生
数据仓库的起源可以追溯到计算机的发展初期,并且数据仓库是信息技术长期发展的产物,在以后也会一直发展。一、文件系统 20世纪60年代初期,计算机领域的主要工作是创建运行在主文件上的单个应用...
2020-10-30 06:45:00
10584

原创 为什么你成为不了团队核心成员
一、背景之前我讲过一个《业务重要?还是技术重要?》,后来收到评论恢复,工作3年以上的同事大多认为业务和技术同等重要。作为一个数据人,我一直想讲业务比数据更重要,但一直怕遭到热衷技术同学的...
2020-10-19 06:47:00
11402

原创 大数据系列资料免费送!
该系列精选文章来自于「数据社」公众号,作者从事过大数据开发,大数据架构,数据分析相关岗位,有着丰富的实战经验。该系列文章主要包括大数据平台、数据仓库、数据挖掘等。系列文章都是基于实战总结...
2020-10-17 20:14:27
15727

原创 收藏|Flink比Spark好在哪?
1 Flink介绍Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台。和Spark类似,两者都希望提供一个统一功能的计算平台给用户,都在尝试建立一个统一的平台以运行批...
2020-09-30 06:49:00
12125

原创 用户行为分之数据处理
一、数据架构上一篇《用户行为分析之数据采集》我们说了用户行为分析的数据采集部分,同时也对用户行为分析做了简单的介绍,本篇我们来说一下用户行为分析的数据处理部分。先来一张图:、0】765o...
2020-09-24 07:00:00
12433
1

原创 用户行为分析之数据采集
用户行为简介用户行为分析主要关心的指标可以概括如下:哪个用户在什么时候做了什么操作在哪里做了什么操作,为什么要做这些操作,通过什么方式,用了多长时间等问题,总结出来就是WHO,WHEN,...
2020-09-22 07:00:00
13721

原创 大数据集群迁移的那一夜是怎么过的|回忆录
背景大数据集群迁移这件事,不知道有多少同学做过(反正我是第一次)。我说的不是简单的把一个集群的数据拷贝到另一个集群上,我指的是整个数据处理平台与相关的前台业务的迁移工作,是从一个机房到另...
2020-09-19 07:00:00
12672

原创 收藏|如何做一个好的大数据平台架构
一、Lambda架构需求Lambda架构背后的需求是由于MR架构的延迟问题。MR虽然实现了分布式、可扩展数据处理系统的目的,但是在处理数据时延迟比较严重。实际上如果内存和CPU足够强大,...
2020-09-14 07:20:00
18706

原创 从0到1搭建自助分析平台
一、什么是自助分析平台自助分析平台是构建在大数据平台之上的,依托于大数据平台的数据研发能力,通过统一的数据服务,实现对数据查询、分析的统一管理,为企业业务分析提供高效的数据决策支持,同时...
2020-09-09 07:00:00
20203

原创 业务重要?还是技术重要?
初级工程师的困惑曾经有公众号的小伙伴后台联系我,咨询一些问题。有一个粉丝问过这样一个问题:群主,向你请教一个困扰我很久的问题,从毕业到现在,我一直从事大数据平台开发d的工作,主要是搭建C...
2020-09-04 06:50:00
21055
5

原创 数据分析新人如何面对繁杂且突然的数据需求
刚刚转行在一家互联网金融机构做业务部门的数据分析师,目前只有我一个人,在平时的工作中会面临着大量的数据需求,不仅多,而且杂,请问如何处理面对这些问题?有没有什么好的提高工作效率的方法知乎...
2020-09-02 06:50:00
14995

原创 基于Ambari的大数据平台搭建
同CDH部署类似,步骤分为ambari的部署和hdp的部署,先以1台为例(内存>6G,磁盘划分/至少40G,/data/10G),后续节点可以通过扩容方式加入集群,可参考:http...
2020-08-19 06:50:00
16311

原创 推荐一款可视化+NoteBook工具
大数据平台搭建好后,我们要做的就是探索数据,探索数据就需要查询,做可视化,那么一款好用自助查询可视化工具,你值得拥有!一、Zeppelin介绍Apache Zeppelin是一个让交互式...
2020-08-16 07:14:00
17720

原创 基于CDH(Cloudera Distribution Hadoop)的大数据平台搭建
“Apache Hadoop存在版本管理混乱、部署过程繁琐、升级过程复杂、兼容性差、安全性低等问题,CDH是Hadoop商业发行版之一,本文介绍基于Cloudera Manager的Cl...
2020-08-08 07:00:00
19165

原创 从0到1搭建大数据平台之计算存储系统
前面已经给大家讲了《从0到1搭建大数据平台之数据采集系统》、《从0到1搭建大数据平台之调度系统》,今天给大家讲一下大数据平台计算存储系统。大数据计算平台目前主要都是围绕着hadoop生态...
2020-08-03 06:45:00
28401

原创 Flume使用file作为channel的一个错误处理
Flume报错:ERROR org.apache.flume.SinkRunner: Unable to deliver event. Exception follows.java.lang.IllegalStateException: Channel closed [channel=fileChannel]. Due to java.io.EOFException: null at org.apache.flume.channel.file.FileChannel.createTransact
2020-07-31 17:25:40
26599
2

原创 从0到1搭建大数据平台之调度系统
目前大数据平台经常会用来跑一些批任务,跑批处理当然就离不开定时任务。比如定时抽取业务数据库的数据,定时跑hive/spark任务,定时推送日报、月报指标数据。任务调度系统已经俨然成为了大...
2020-07-20 06:40:00
30827

原创 从0到1搭建大数据平台之数据采集系统
关于从0到1搭建大数据平台,之前的一篇博文《如何从0到1搭建大数据平台》已经给大家介绍过了,接下来我们会分步讲解搭建大数据平台的具体注意事项。一、“大”数据海量的数据当你需要搭建大数据平...
2020-07-09 06:40:00
35011

原创 如何从0到1搭建大数据平台
大数据时代这个词被提出已有10年了吧,越来越多的企业已经完成了大数据平台的搭建。随着移动互联网和物联网的爆发,大数据价值在越来越多的场景中被挖掘,随着大家都在使用欧冠大数据,大数据平台的...
2020-07-02 06:20:00
35016

原创 关于数据库,程序员应该了解的那些事
数据库的选型对于很多程序员来说,公司选择什么样的数据库,基本不需要你来决定。当你加入一个公司的时候,公司的大部分技术选型已经确认,特别是数据库选型,因为数据库一旦选择,后期迁移的代价还是...
2020-06-13 12:08:37
22018

原创 数据中台如何设计
关注公号【数据社】了解更多。https://mp.weixin.qq.com/s?__biz=MzI4MzE4MjQxOQ==&mid=2649359114&idx=1&sn=4ead52a8a53f085c8af3360cc6a146d5&chksm=f3903736c4e7be201d4e239db2d89c666053357999c3c33252d8820c...
2020-05-31 10:04:53
24552

原创 聊聊数据库
数据库的发展基本上也是伴随着计算机技术经历了40年的历史,从最初的文件系统上的文件,到有结构的层次和网状数据库,一直到今天被广泛使用的关系型数据库。随着互联网和物联网行业的兴起,数据量飞速增长,对大数据的采集、存储和应用是每个数据库必备的技能。现在大多数应用都是数据存储密集型,而不是计算密集型。数据存储发展众所周知,文明的发展离不开信息的积累,而任何东西的积累离不开存储。因此,信息存储是文明发展的重要环节,从某种意义上讲,甚至可以说是人类迈入文明社会的标志之一。在历史上,人类曾经创造过很多信息存储的.
2020-05-29 14:57:45
25547
Vertica的那些事.pdf
2019-08-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人