
scala
冽夫
这个作者很懒,什么都没留下…
展开
-
如何更改Spark程序的HDFS复制因子?
将Spark程序的HDFS复制因子从3更改为1 val sparkConf = new SparkConf() sparkConf.set("spark.driver.maxResultSize", "10g")//.set("autoBroadcastJoinThresho1d","8388608000").set("spark.sql.broadcastTimeout","") val spark =SparkSession.builder().config(sparkCo原创 2020-11-23 18:06:52 · 267 阅读 · 0 评论 -
spark_程序接收外部传入的参数
spark-submit --class "test" --master spark://master:7077 /--driver-cores 16 --executor-cores 16 --conf spark.driver.memory=30G /--conf spark.executor.memory=30G //root/xxx/test/target/scala-2....原创 2019-11-04 19:53:39 · 3300 阅读 · 0 评论 -
林子雨-5.2 键值对RDD
目录1、创建键值对RDD从文件加载通过并行集合创建2、常用的键值对RDD转换操作(reduceByKey和groupByKey)3、keys,values.sortByKey,mapValues,join4、综合实例1、创建键值对RDD从文件加载通过并行集合创建2、常用的键值对RDD转换操作(reduceByKey和groupBy...原创 2019-10-24 20:58:26 · 385 阅读 · 0 评论 -
林子雨-5.3-4 文件数据读写-综合案例
目录1、读写文件2、求TopN3、求最大最小值4、文件排序5、二次排序6、连接操作1、读写文件2、求TopN分区分2个==用两个线程只有键值对才可以排序3、求最大最小值4、文件排序5、二次排序网络中可传输的数据必须可序列化6、连接操作找出评分高于4.0的电影????生...原创 2019-10-24 20:43:13 · 318 阅读 · 0 评论 -
林子雨-5.1 RDD编程基础
1、RDD属于Spark Corespark核心:RDD2、RDD的创建文件加载通过SparkContext对象的textFile()读取文件生成RDDfile:///表示读取本地文件每一行都是RDD的一个元素hdfs://localhost:9000/也可以简写为/通过并行集合(数组)创建RDD调用sc的parallelize方法3...原创 2019-10-24 19:11:52 · 957 阅读 · 0 评论 -
Dangling meta character '*' near index 0 *
1、split方法转化字符串为数组: String[] strPicArr = map.get("hw_pic").toString().split("*"); 报错: java.util.regex.PatternSyntaxException: Dangling meta character '*' near index 0 2、经调试跟...转载 2019-10-24 09:58:31 · 339 阅读 · 0 评论 -
scala里如何使用元组
https://blog.csdn.net/u010454030/article/details/84914649原创 2019-10-24 09:50:46 · 200 阅读 · 0 评论 -
org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema cannot be cast to scala.Tuple2
https://blog.csdn.net/gg584741/article/details/77884060https://stackoverflow.com/questions/37553059/extracting-seqstring-string-string-from-spark-dataframehttp://apache-spark-developers-list.10015...原创 2019-10-24 09:45:16 · 2151 阅读 · 0 评论 -
scala中的可变长数组
val buffer = ArrayBuffer[T]()追加方法:+=++=append原创 2019-10-24 09:23:57 · 1427 阅读 · 1 评论 -
scala函数返回元组类型时的声明
Array中,val a=Array[String]即可元组可以存放不同类型的数据:val a=("er",2)这样就声明了返回(Int,String)类型的元组结构def test(str:String):(Int,String)={语句块}...原创 2019-10-24 09:22:01 · 1684 阅读 · 0 评论 -
林子雨-2.4 函数式编程基础
目录1、函数的定义与使用定义字面量匿名函数_2、高阶函数定义3、针对容器的操作 (遍历、映射)scala容器的标准遍历方法foreachmapflatmap4、过滤和规约过滤规约reducefold5、spark编程实例WordCount1、函数的定义与使用定义函数==方法(见2.3)字面量函数也有函...原创 2019-10-20 19:06:14 · 313 阅读 · 0 评论 -
林子雨-2.3 面向对象编程基础
目录1、类private中缀表示法2、构造器定义主构造器和辅助构造器3、对象(单例对象 singleton object)单例对象伴生对象孤立对象4、对象(apply方法)5、对象(update方法和unapply方法)update:unapply:6、类的继承抽象类扩展类Option类7、特质定义及简介混入...原创 2019-10-20 17:07:01 · 341 阅读 · 0 评论 -
林子雨-2.2 Scala基础知识
目录1、scala与java的if else的不同2、for2.1 for(变量 <- 表达式;变量<-表达式){语句块}2.2 for(变量 <- 表达式 if 条件表达式) 语句块3、异常4、循环控制4.1 终止从当前开始的所有循环4.2 终止当次循环,继续下一个循环对象5、数组6、元组7、容器 collection7....原创 2019-10-19 22:11:50 · 593 阅读 · 0 评论 -
spark dataframe中的for和if
尽可能地用map代替formap相较于for真的快很多if 和 for 真的太为难JVM了(运行效率非常低下)他只是个单纯的OO(卑微)????关于python中dataframe的 for 和 if ,有异曲同工之妙:https://blog.csdn.net/geniusle201/article/details/78351639#commentBox...原创 2019-10-15 22:03:53 · 1590 阅读 · 0 评论 -
关于spark中的collect
所以不要轻易用collect,集群中用了collect产生的数组据说是保存在主节点中,其他节点访问不到,所以还要用到广播变量广播道其他节点,不然就会报空指针的错误。以下出自这里:https://blog.csdn.net/qq_44596980/article/details/93383431/*collect: 收集一个弹性分布式数据集的所有元素到一个数组中,这样便于我们观察,毕竟...原创 2019-07-25 17:29:22 · 5313 阅读 · 0 评论 -
scala写入HDFS
今天跟同学讨论发现一个很菜鸟好玩的东西scala调用Java的写入方法时只能写入本地文件,不能写入HDFS等分布式文件系统中,导致不同程序间很难访问到同一个文件除非在脚本中加入HDFS的上传文件命令。所以scala写入HDFS大体就两种方法:dataframe or RDD...原创 2019-07-25 16:21:03 · 2811 阅读 · 1 评论 -
Scala之排序函数的使用
原文在这里:https://blog.csdn.net/u010454030/article/details/79016996排序方法在实际的应用场景中非常常见,Scala里面有三种排序方法,分别是: sorted,sortBy ,sortWith分别介绍下他们的功能:(1)sorted对一个集合进行自然排序,通过传递隐式的Ordering(2)sortBy对一个属性或多个...转载 2019-07-10 17:02:31 · 397 阅读 · 0 评论 -
scala中List类的高阶方法
文章来源在这里:https://www.cnblogs.com/gaopeng527/p/4102937.html列表间映射:map、flatMap和foreach1.xs map f 操作返回把函数f应用在xs的每个列表元素之后由此组成的新列表。如:scala> List(1, 2, 3) map (_ + 1)res0: List[Int] = List(2, 3,...转载 2019-07-10 11:25:26 · 270 阅读 · 0 评论 -
scala之神奇的语法tips
::: :: :::运算符:::(三个冒号)表示List的连接操作,比如:vala=List(1,2) valb=List(3,4) valc=a:::b其中a,b保持不变,a和b连接产生一个新表List(1,2,3,4),而不是在a上面做add操作。Scala中的List不同于Java的List,Jav...转载 2019-07-10 11:23:40 · 139 阅读 · 0 评论 -
IDEA Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.r
太鬼扯了...IDEA Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.r...网上说是scala SDK版本问题于是ctrl+shift+alt+s把依赖中的scala SDK那里改成2.10.x的版本(brows)别在IDEA中下载,太慢辽!!!!!scala官网了解一下,版本选...原创 2019-05-09 15:57:09 · 607 阅读 · 0 评论 -
No TypeTag available for String sqlContext.udf.register()
今天在用IDEA写spark sql时遇到这个从未见过的奇葩问题贴上代码package udf_sqlimport org.apache.spark.sql.{DataFrame, SparkSession}object sql_udf { def main(args: Array[String]): Unit = { val spark = SparkSession....原创 2019-05-09 15:50:02 · 511 阅读 · 0 评论 -
IDEA写spark程序时import org.apache.spark.sql.{Row,SparkSession}错误
因为是IDEA第一次运行spark程序,所以需要导入相应的jar包jar包来源参考我的另一篇博文其实两篇博文描述的遇到的问题挺相似的下载好后点击文件→项目结构→模块→依赖(lib)也可以直接shift+Ctrl+Alt打开此界面点击右边的➕,选择 Jars或目录,选择下载好的Jar包,单击确定。大功告成~...原创 2019-05-09 12:32:42 · 8134 阅读 · 1 评论 -
在IDEA中开发scala
1、准备环境文件→设置→Plugins→搜索SCALA→点击search in repositories→选择language的scala→install需要重启IDEA来激活SCALA插件2、开发一、二、选择maven,点击下一个点击完成三、用maven开发需要手动添加scala框架选择添加框架的支持勾上scala,点击确定...原创 2019-05-07 23:52:05 · 1778 阅读 · 1 评论