- 博客(486)
- 资源 (36)
- 收藏
- 关注
转载 建立数据目录的6个步骤
数据目录是所有数据的系统性列表,以表、文件、报告等形式存在于公司的各种源系统中。它的工作原理很像时装目录,但它没有详细介绍泳装或鞋子,而是从一家公司的ERP、人力资源、财务、电子商务系统以及社交媒体源获得信息。目录还显示了所有数据实体的位置。 数据目录包含关于每个数据片段的大量关键信息,比如数据的概要(关于数据的统计或信息摘要)、沿袭(数据如何生成)以及其他人对它的看法。目录是数据分析师、数据管理员、数据科学家和其他人员寻找和理解相关数据集以建立洞察、发现趋势和为公司确定新产品的切入点。
2021-05-07 09:32:32
6931
翻译 数据库优化笔记
设计表时要注意:1.表字段避免null值出现,null值很难查询优化且占用额外的索引空间,推荐默认数字0代替null。2.尽量使用INT而非BIGINT,如果非负则加上UNSIGNED(这样数值容量会扩大一倍),当然能使用TINYINT、SMALLINT、MEDIUM_INT更好。3.使用枚举或整数代替字符串类型4.尽量使用TIMESTAMP而非DATETIME5.单表不要有太多字段,建议在20以内6.用整型来存IP索引1.索引并不是越多越好,要根据查询有针...
2020-10-10 09:11:54
680
转载 【数据科学】数据治理与数据认责概述
一、本文预期读者:•企业领导• 各主要业务部门领导• 技术执行管理人员:在客户数据治理路线规划、设计和实施当中,需要资深的管理人员支持。• 数据管理相关部门:负责客户数据管理和监管报送相关的部门及其领导。• 业务部门主要用户:相关业务部门的主要用户,如:数据分析人员、超级用户、应用软件专业用户等。• BI 项目组:任何负责实施 BI 的项目开发团队,以及正在进行实...
2020-04-21 16:08:13
1764
转载 【数据科学】小数据治理靠“人工”,大数据治理靠“智能”
摘要本文把小数据和大数据的基本概念,小数据治理与大数据治理的范围、区别、方法及主要特征介绍比较清晰。(1)小数据治理靠“人工”,小数据的治理十五字方针:理数据、建标准、接数据、抓运营、重实效。(2)大数据治理靠“智能”,大数据治理的六字方针:采、存、管、看、找、用。一、什么是小数据治理谈小数据治理,首先说一说什么是小数据。在百度百科上我们可以查到小数据的定义是:“小数...
2020-04-21 16:06:25
1540
2
转载 【数据挖掘】如何做数据挖掘项目
笔者鼓励致力于从事数据行业的去参加一些人工智能,机器学习的培训,然后有人说:其实很多企业不喜欢培训出来的人,认为培训不贴近实际,纸上谈兵。我倒不这么看,其实即使在企业内干数据挖掘的人,很多也出不了活,这个不仅仅涉及业务和技术,更是管理上的问题。任正非说,华为最后能留下来的财富只有两样:一是管理框架、流程与组织支撑的管理体系;二是对人的管理和激励机制,什么是流程化组织,简单的说,就是基于流程...
2020-04-21 15:57:17
1555
转载 【中台】透过中台看数据中台
场景一:发生在上周周末,与一个公司的老板对话:开门见山的提了一个问题:“想问一个问题, 我想搞一个数据中台。”我惊了一下问到:“啥?搞数据中台?没烧坏吧?”“那想搞这个这个数据中台的目的是啥?是要支撑业务,还是在融资上搞啥?”“现在这个中台很火啊,我们也想搞一下。搞个数据中台、再搞个运营中台,未来面向 xxx 这个群体,就是一个 SaaS。”“你真有钱,其它中台不好说,但是数据...
2020-04-21 15:54:13
628
1
转载 图解抖音推荐算法
抖音推荐算法究竟如何是做抖音短视频运营的同学非常关心的问题,抖音官方并没有披露正式的算法,但凭借着民间的智慧和官方披露的部分信息中,网友已经总结出抖音推荐算法的秘密。这里整理资料如下:首先看短视频发布后抖音一般会进行的一系列推荐流程第0步:双重审核在抖音,每天有数量庞大的新作品上传,纯靠机器审核容易被钻空子,纯靠人工审核又不太现实。因此,双重审核成为抖音算法筛选视频内...
2020-04-21 15:52:01
1579
转载 【爬虫】封装了一些 python 爬虫技巧,开箱即用
这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累积不少爬虫抓站的经验,在此总结一下,那么以后做东西也就不用重复劳动了。目录1.最基本的抓站2.使用代理服务器3.需要登录的情况3.1 cookie的处理3.2 表单的处理3.3 伪装成浏览器访问3.4 反”反盗链”3.5 终极绝招4.多线程并发...
2020-04-21 15:45:23
814
1
转载 【数据科学】网易数据中台建设实践
数据中台无疑是今年大数据圈最火的名词,不仅是互联网企业,就连很多传统企业都参与到数据中台的建设中,基于数据提高企业运营效率。作为网易集团公共技术研发部门,网易杭州研究院在过去一年一直致力于数据中台支撑产品的研发,推动数据中台在网易电商、音乐、传媒等业务的落地。本文将结合网易数据中台的建设实践,对数据中台的定义、建设方法论以及落地价值进行深入探讨。数据中台是什么?从 Hadoop 集群的...
2020-01-15 15:32:28
795
转载 【推荐算法】图解抖音推荐算法
抖音推荐算法究竟如何是做抖音短视频运营的同学非常关心的问题,抖音官方并没有披露正式的算法,但凭借着民间的智慧和官方披露的部分信息中,网友已经总结出抖音推荐算法的秘密。这里整理资料如下:首先看短视频发布后抖音一般会进行的一系列推荐流程第0步:双重审核在抖音,每天有数量庞大的新作品上传,纯靠机器审核容易被钻空子,纯靠人工审核又不太现实。因此,双重审核成为抖音算法筛选视频内容的第...
2020-01-15 15:29:06
1927
翻译 【Python】python的四种高性能数据类型,助你优化代码、简洁任务
Python 的最大优势之一就是它有各种各样的模块和软件包可供选择。这些模块和包将 Python 的功能扩展到了许多流行领域,包括机器学习、数据科学、Web 开发和前端等。其中表现最好的一个就是 Python 内置的 collections 模块了。一般而言,Python 中的 collections 模块是用于存储列表、字典、元组以及集等数据集合的容器。这些容器嵌入在 Python 中...
2019-11-15 15:48:32
554
转载 【运营数据分析】运营数据分析怎么做?建立运营数据分析思维
对于运营数据分析,我相信很多小伙伴会存在以下问题:面对异常数据经常出现“好像做了什么?好像发生了什么?所以可能造成了影响”的主观臆测?面对数据报表,不知道该怎么分析?不知道该分析什么?数据分析作为运营最基础的一项技能,你是否真正的将其价值发挥出来,合格的运营一定是数据驱动运营,而非运营驱动数据!1、从单一维度到体系化的思考,是做数据分析必须做出的转变!对于数据分析你需要有体系化的数...
2019-11-15 15:44:42
6041
原创 【项目管理】项目是怎么轻易的死去?(提供建议和看法)
一共为10点原因导致项目终结。一、定制了不可到达的目标(靠想象力做事的人经常犯) 为了高大上,为了领导,为了脸面,忽悠甲方,往往会定制过高的目标。以至于未能完成,或延期。这样的案例很多,经常是产品经理的需求过于不切实际,忽略团队实力和技术,一意孤行。建议产品经理不要用想象力工作,想的很美好,可是技术团队跟不上,导致项目无法进行和各种延期、各种BUG,最终导致项目...
2019-11-15 15:37:28
365
翻译 【Python】Python代码自动补全神器 Kite
我们很高兴与您分享智能片段,我们的最新功能旨在使您的完成体验更加无缝。Kite的智能代码段使您可以在键入时生成与上下文相关的代码段,从而轻松完成复杂的多令牌语句。典型的代码段必须事先手动定义,而Kite的智能代码段则是根据Kite在您的代码库中发现的代码模式实时生成的。TL; DR适用于我们支持的所有编辑器的最新版本的Kite(20190905.0...
2019-11-06 09:08:25
6003
1
转载 【大数据】数据中台是怎样炼成的?
“中台”战略在国内最初起源于阿里巴巴、华为等大型企业,在中台的基础上又分为业务中台、数据中台,目标都是把一些通用能力抽象到中台提供,达到资源复用以及快速适应前台业务变化的目的。数据中台,将数据业务化,来供业务中台和前台业务系统调用,原来缓慢的调用,变成了毫秒级别的快速反馈。数据中台这场风,一下子就席卷了大数据行业的各个角落。很多不同类型的公司都声称自己可以搭建数据中台或是数据中台的一部分。...
2019-11-06 09:03:15
762
转载 【数据科学】传统企业数据中台建设与思考
前言在当前数字经济领域最受关注的技术趋势当属中台,这一概念由阿里提出,并迅速在众多互联网企业中传播和应用,今年以传统企业也将目光关注于此,并着手引入数据中台相关产品。然而,数据中台目前仍未有一个准确而统一的定义,对于数据中台是什么、能干什么、怎么实现,各行各业仍需结合实践去探索。一 什么是数据中台1.1 中台概念的提出阿里是最早提出中台建设的互联网企业,据说阿里中台的架构...
2019-09-25 10:18:34
528
机器学习知识手册
2018-10-15
《精益数据分析》埃里克·莱斯
2018-09-25
pycharm2017汉化包
2017-09-18
Tengine与Nginx的特性
2017-09-12
全面的各类RAID详解
2017-09-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人