- 博客(31)
- 收藏
- 关注
原创 Docker-Docker镜像存储位置(Windows/Mac/Linux)
不同系统Docker容器与镜像默认存放位置Linux 存放位置如下Linux:cd /var/lib/docker - 容器与镜像存放在此目录下镜像位置: /var/lib/docker/image容器位置: /var/lib/docker/containersMacMacOS:容器和镜像在如下目录下,不同版本或许可能文件版本不一样/Users/xxxxmyname/Library/Containers/com.docker.docker/Data可以到上面的目录中,查看
2022-02-20 18:10:50
86152
9
原创 Docker-Docker命令整理说明
Docker命令汇总docker pull 镜像名<:tags> - 从远程仓库抽取镜像docker images - 查看本地镜像docker run 镜像名<:tags> - 创建容器,启动应用(前台运行) * 如果在运行run命令时,镜像还没有被远程仓库抽取,则会首先进行pull将镜像下载到本地,再进行创建启动操作docker run -p 宿主机端口:容器内端口 镜像名 - 创建容器,启动应用并映射端口号(前台运行) * -p: 映射端口号doc
2022-02-20 18:00:00
784
2
原创 Spark - Transformation算子Zip使用
Spark - Transformation算子Zip使用zip说明注意事项代码示例zip说明zip 自身的RDD的值的类型为T类型,另一个RDD的值的类型为U类型。zip操作将这两个值连接在一起。构成一个新的元组值def zip[U: ClassTag](other: RDD[U]): RDD[(T, U)] = withScope {处理逻辑}注意事项需要两个rdd有相同的分区数 和 数据条数相同Exception1: Can’t zip RDDs with unequal numbe
2021-12-19 15:14:18
1568
原创 Spark - 源码解析-LocalCluster模式启动分析
Spark常用的几种模式Local StandAlone Yarn - MesosLocal模式又分为几种启动方式 local - local单核 LOCAL_N_REGEX(threads) - local[N]/local[*] 设置N个线程或启动与cpu core个数相同的线程 LOCAL_N_FAILURES_REGEX(threads, maxFailures) - 设置N线程数与最大失败次数 LOCAL_CLUSTER_REGE..
2021-12-11 12:41:53
1665
1
原创 Hive - 传参hiveconf,hivevar
--hiveconf配置--hivevar参数--hive配置hive -e "select * from tablename" --hiveconf mapreduce.job.queuename=yarn_queuename|hive --hiveconf mapreduce.job.queuename=yarn_queuename -e "select * from tablename"hive -e "select * from tablename where biz_
2021-11-13 21:23:28
1559
原创 Python - pandas - groupby+agg聚合重命名解决办法
目录1.数据准备2.聚合重命名的几种方法1.数据准备import pandas as pddf = pd.read_csv('/data/Mall_Customers_nom.csv')df.head()as_index默认为True,即返回以组标签作为索引的对象。下例,Gender作为索引返回。gender_df = df.groupby("Gender", as_index=True).agg({'CustomerID':'count'})gender..
2020-10-24 11:45:13
16028
1
原创 Python - 安装matplotlib模块 No matching distribution found问题解决
安装pip install matplotlib报错如下:ERROR: Could not find a version that satisfies the requirement cycler>=0.10 (from matplotlib) (from versions: none)ERROR: No matching distribution found for cycler>=0.10 (from matplotlib)
2020-10-24 10:23:41
15118
1
原创 Python - pandas操作之shift位移操作
目录一、方法参数二、使用方法1.读入数据2.shift操作2.1.periods2.2.指定axis,操作列2.3.为以后填充空值一、方法参数DataFrame.shift(periods, frep, axis, fill_value)periods:要移动的值frep:拓展索引,值不变axis:指定要移位的行或列,0为行,1为列fill_value:指定移位后的填充值,fill_value=0,即表示移位后缺失值填充为0二、使用方法1.读...
2020-10-24 10:23:21
11843
1
原创 Impala - 登录用户身份认证-ldap_password_cmd使用详解
实践是检验真理的唯一标准!-ldap_password_cmd:运行以检索LDAP密码的Shell命令准备工作:[root@localhost impala]$ vi /home/test/impala/pwd-impala123456[root@localhost impala]$ cat /home/test/impala/pwd-impala123456先切换我当前的用户,以免混淆[root@localhost impala]$ kinit hbasePasswor
2020-09-09 19:31:31
6018
原创 Impala - impala-shell help命令行参数详解
impala-shell -hUsage: impala_shell.py [options]Options: -h, --help show this help message and exit -i IMPALAD, --impalad=IMPALAD <host:port> of impalad to connect to [default: master
2020-09-09 13:10:35
745
原创 Python - Anaconda集成环境安装详解(for Windows)
Anaconda简介:Anaconda是一个基于python的库的集合(自带Python环境),他包含了conda(包管理工具)和众多Python库的集合(科学计算库等)安装:下载:通过官网Anaconda下载,打开如下:点击IndividualEdition点击进入下载页,点击Download,选择系统对应的版本:下载好后点击安装即可:安装步骤简单;直接下一步下一步即可这里我选择的for AllUser指定安装目录两个选项都勾上...
2020-09-08 23:56:01
1221
原创 Impala - 刷新表的两种方式invalidate metadata和refresh
impala刷新表有两种方式invalidate metadata和refresh: invalidate metadata invalidate metadata:刷新元数据和文件-- 刷新所有库中的所有表invalidate metadata;-- 刷新指定库的指定表invalidate metadata tablename;refreshrefresh:不刷新元数据,只刷新文件-- 刷新指定表refresh tablename-- 刷新指定表的分区
2020-09-08 19:36:29
4386
原创 Hive - 导出文件并指定分隔符(逗号等)
语法格式beeline -n username -p password -u jdbc:hive2://host:10000 --verbose=true --showHeader=false --outputformat=tsv2 --color=true -e "select * from ${database}.${tablename}" > ${tableName}.csv通过 outputformat 指定输出格式--outputformat=[table/verti
2020-09-04 18:49:46
4475
原创 Python之查看pip安装包site-package的位置
本文介绍查找pip site-package位置的两种方法方法一:通过Python内置方法get_python_lib查询from distutils.sysconfig import get_python_libprint(get_python_lib())# /Library/Python/3.7/site-packages方法二:通过pip3命令直接查看查看已安装的库的列表:pip3 listxxxx@MacBook-Pro ~ % pip3 listWARNING: p
2020-08-31 19:04:41
12446
1
原创 Docker-nginx简单实用(启动停止)
【参考资料-菜鸟教程Docker-Nginx】查看docker中是否包含nginx容器xxxx@MacBook-Pro ~ % docker imagesREPOSITORY TAG IMAGE ID CREATED SIZEdocker101tutorial latest 25de3aa58202 18 hours ago 27.3MB&
2020-08-28 11:56:10
5233
原创 Docker-阿里云镜像加速配置(Mac)
参考资料-阿里云容器镜像服务查看docker的版本(本文基于最近版本docker19.03.12(for mac10.10.5)(at20200828))点击任务栏Docker Desktop图标,点击Perferences,如下:选择菜单栏选择Docker Engine,并在输入框将"registry-mirrors": ["https://zx0yvph5.mirror.aliyuncs.com"] 加入到json中,配置好后点击Apply & Restart 重启Docker
2020-08-28 11:15:49
374
原创 Python打开文件模式整理(常用)
参考资料-Python 文件I/Oopen()函数打开文件file_object = open(file_name [, access_mode][, buffering])file_name:file_name变量是一个包含了你要访问的文件名称的字符串值。 access_mode:access_mode决定了打开文件的模式:只读,写入,追加等。所有可取值见如下的完全列表。这个参数是非强制的,默认文件访问模式为只读(r)。 buffering:如果buffering的值被设为0,就不
2020-08-18 14:21:02
566
原创 S3-s3cmd命令行工具使用
s3cmd-参考资料https://s3tools.org/usageS3没有文件夹的概念,只有桶(bucket)的概念创建桶:s3cmd mb s3://my-bucket-name删除空桶s3cmd rb s3://my-bucket-name查看所有bucketss3cmd ls查看指定bucket的内容s3cmd ls s3://my-bucket-name上传文件s3cmd put file.txt s3://my-bucket-nam..
2020-08-10 11:49:04
3348
原创 阿里云-对象存储OSS之ossutil命令行工具使用
OSS官方文档本文仅做记录方便查看,详细了解请参照官方文档lsls命令用于列举存储空间(Bucket)、对象(Object)和碎片(Part)。ossutil ls oss://上传文档有多个命令可以使用:如下:appendfromfile命令用于将本地文件内容以追加上传的方式上传到OSS中的appendable Object中。ossutil appendfromfile /file/test.txt oss://bucket1/test.txt cp 命令用于上传.
2020-08-07 18:38:05
2186
1
原创 Pyhton-range和arange的区别及使用(numpy)
本文Pyhton版本基于Python3.x。工具jupyter notebook参考资料-range函数用法[numpy-arange-官方文档]range()函数range()返函数回的是一个可迭代对象。不是列表类型,直接打印不会打印列表# 因为range()函数返回的不是列表,所以不能直接打印列表,需要结合遍历print(range(10))# range(0, 10)语法:range(stop)range(start, stop[, step])参..
2020-08-07 18:12:49
341
原创 (Mac)Pycharm——使用virtualenv虚拟环境
前情提要:本文操作系统基于Macvirtualenv虚拟环境安装好后,平常我们习惯了使用IDE工具,如果在命令行开发就显得不太方便,这时候能在IDE上编辑再好不过了。下面我们介绍Pycharm如何使用虚拟环境的包。具体步骤如下:打开系统设置:Pycharm -> Preferences -> Project:youproject -> Project Interpreter注意这里需要选择System Interpreter(系统解释器)才有效果(经实践),设置好后就.
2020-07-31 16:05:33
3601
原创 python——virtualenv虚拟环境搭建
本文操作系统基于Mac,Python3.7参考资料-官方virtualenv通过pip安装virtualenvpip3 install virtualenv查看是否安装成功:xxxx@MacBook-Pro peilv % virtualenv --versionvirtualenv 20.0.28 from /Users/xxxx/Library/Python/3.7/lib/python/site-packages/virtualenv/__init__.py打印如上信息则
2020-07-30 19:11:06
261
原创 Python 安装requests[socks]
通常情况下如下安装:# pip install requests[socks]$ pip3 install requests[socks]zsh: no matches found: requests[socks]如上所述,命令不能识别requests[socks]解决办法:将requests[socks]看作整体,用引号包裹:pip3 install 'requests[socks]'打印如下信息安装成功:也可使用pip3 list查看WARNING: pip is be
2020-07-27 19:06:27
3222
1
原创 Shell 小数对比问题
shell 常规数据比大小不支持小数和百分数,这时候需要用到一些转换使用expr比较expr命令是一个手工命令行计数器,用于在UNIX/LINUX下求表达式变量的值,一般用于整数值,也可用于字符串。flag2=$(expr 1.1 \< 2.2)# 0 为 假 False# 1 为 真 Trueif [ $flag2 -eq 0 ];then echo "1.1 小于 2.2为"else echo "1.1 小于 2.2为真"fi输出:1.1 小于 2.2为
2020-07-03 12:12:29
1184
原创 Linux date时间操作使用整理
date命令在自动化脚本中广泛使用,今天整理了一些date的用法日期转时间> date +%F # YYYY-MM-DD2020-06-05字符串转日期> date -d '20200605'Fri Jun 5 00:00:00 CST 2020> date -d '2020-06-05'Fri Jun 5 00:00:00 CST 2020> date -d '2020-06-05' +%s #转成时间戳1591286400字符串转日期并指定格
2020-06-09 15:13:21
265
原创 Hive - 动态分区操作
参考资料:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Loadingfilesintotables相关参数:set hive.exec.dynamic.partition=true; (默认false)# 开启动态分区set hive.exec.dynamic.partition.mode=nonstrict; (默认strict)# 在strict模式下,用户必须至少
2020-06-02 17:44:10
417
原创 Hive - 数据导出方式整理
数据导出方式有以下几种hive 查询重定向到文件 通过查询将数据写入文件(insert overwrite directory) 通过beeline导出hive查询重定向:(不能指定分隔符)hive -e "select * from table_name" > /data/test/table_name.txthive查询会打印异常日志,可以通过shell过滤到异常信息hive -e "select * from table_name" |grep -v 'WARN' &.
2020-06-02 15:28:14
1897
原创 Hive数据导入方式整理
参考文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManualLOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablenam
2020-06-02 14:50:08
329
原创 Shell之split使用详解,文件切割应用
Split --help[root@dw-hsd02-pe connect]# split --helpUsage: split [OPTION]... [INPUT [PREFIX]]Output fixed-size pieces of INPUT to PREFIXaa, PREFIXab, ...; defaultsize is 1000 lines, and default PREFIX is 'x'. With no INPUT, or when INPUTis -, read
2020-05-28 16:35:40
10601
2
原创 Hive时间整理
from_unixtime &unix_timestamfrom_unixtime:时间戳转日期函数 返回值: stringunix_timestamp:日期转时间戳函数 返回值: bigint时间戳一般是10位数的,13位数的为毫秒级的,毫秒级时间戳直接使用from_unixtime转换需要/1000时间格式转换:select to_date(from_unixtime(unix_timestamp('20200527','yyyyMMdd'), 'yyy...
2020-05-27 17:30:45
338
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人