1.spark 基础


1.1 spark 发展历程

spark 是加州大学伯克利分校 AMP 实验室开发的基于内存的通用并行计算框架

发展历程:

  • 2009 年诞生于美国加州大学伯克利分校 AMP 实验室;
  • 2010 年通过 BSD 许可协议开源发布;
  • 2013 年 6 月进入 Apache 孵化器项目;
  • 2014 年 2 月成为 Apache 的顶级项目(仅8个月时间);
  • 2014 年 5 月 spark1.0.0 发布;
  • 2016 年 7 月 spark2.0.0 发布;
  • 2020 年 6 月 spark3.0.0 发布;

既然已经有了 mapreduce,为什么还会流行 spark?

1.2 spark 与 mapreduce 对比

Spark 产生之前,已经有 MapReduce 这类非常成熟的并行计算框架存在了,并提供了高层次的 API(map/reduce),它在集群上进行计算并提供容错能力,从而实现分布式计算。

所以为什么 spark 会流行呢?

  • 原因 1:优秀的数据模型和丰富的算子

虽然 MapReduce 提供了对数据访问和计算的抽象,但是对于数据的复用就是简单的将中间数据写到一个稳定的文件系统中(例如 HDFS),所以会产生数据的复制备份,磁盘的 I/O 以及数据的序列化,所以在遇到需要在多个计算之间复用中间结果的操作时效率就会非常的低。而这类操作是非常常见的,例如迭代式计算,交互式数据挖掘,图计算等。

所以在认识到这个问题后,AMPLab 提出了一个新的模型,叫做 RDD(弹性分布式数据集)。RDD 是一个可以容错且并行的数据结构(其实可以理解成分布式的集合,操作起来和操作本地集合一样简单),它可以让用户显式的将中间结果数据集保存在内存中,并且通过控制数据集的分区来达到数据存放处理最优化。同时 RDD 也提供了丰富的算子 API (map、reduce、filter、foreach、redeceByKey…)来操作数据集。后来 RDD 被 AMPLab 放在一个叫做 Spark 的框架中并开源。

简而言之,Spark 借鉴了 MapReduce 思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的 API 提高了开发速度。

  • 原因2:fullstack-完善的生态圈

在这里插入图片描述
spark 目前主要由五个组件构成, sparkcore 提供内存计算,sparksql 提供即时查询,spark streaming 提供实时计算,mlib提供机器学习,graphx提供图处理,spark 其他四个组件都会依赖于核心项目 sparkcore 中的组件模块。

  • 原因3:运行模式多样化

由上图可知,spark 可以运行在多个资源管理调度平台上,其中包括 spark standalone、spark on yarn、mesos、k8s等,下面将对其中几个运行模式进行说明

1.3 spark 运行模式

  • 本地模式

spark 本地模式是在一台计算机上的运行模式,一般用于学习与测试,例如在idea中:

var conf=new SparkConf().setMaster("local[*]").setAppName("test1")
var sc:SparkContext=...
sc.操作
sc.stop()

其中设置本地模式有三种方式:

setMaster(“local”) 表示用单线程来运行

setMaster(“local[number]”) 表示用 number 个线程并行

setMaster(“local[*]”) 表示该计算机的 cpu 核数个线程并行

  • spark on yarn

spark on yarn 模式是在 yarn 集群中运行,适用于生产环境,其中包含 cluster 与 client 两种模式

i. spark on yarn 的 cluster 模式,指的是 driver 程序运行在 yarn 集群上,当用户提交了作业后,可以关闭 client,作业会继续在 yarn 上运行。

ii. spark on yarn 的 client 模式,指的是 driver 程序运行在提交任务的客户端上,当用户提交了作业后会在 client 上生成 sparksubmit 进程,client 不能中途离开。

两种模式的本质区别是:driver 程序运行的位置

  • k8s

k8s是 spark 上全新的集群管理和调度系统,spark2.3 后 spark 可以部署在 k8s 上

常用有两种方法可以将 spark 应用提交到 k8s 上:

i. 通过 spark 原生的 spark-submit 提交

ii. 通过谷歌提供的 spark-on-k8s operator 提交

两种模式区别是:spark-on-k8s operator 可以通过一系列的内置工具获取很多作业相关的信息,而spark-submit 则无法查看作业的运行信息。

  • why spark on k8s?

spark on yarn 与 spark on k8s 都可以用于实际生产,但为什么很多大公司更倾向于 k8s 呢?

yarn 是资源管理工具,用于管理 cpu 与 memory 的资源隔离;

k8s 是容器编排工具,显然资源管理是其功能之一;

如果按照“编排”的概念方向去理解 yarn,那么 yarn 就是一个 JVM 负载的编排工具,而 k8s 是容器负载的编排工具。这么一比较,k8s 显然胜出一筹,因为容器在应用的支持方面更广泛,更不要说 k8s 能够实现比 yarn 好得多的多的隔离了。

简而言之,用了 k8s 之后,不仅仅可以在这个集群运行 spark 负载,显然也可以运行其他所有的基于容器的负载,那么只需要把应用都进行容器化即可。比如 BI 工具、报表工具、查询工具等都可以在一个 k8s 集群上运行,而 spark 只是作为其中的应用之一。

so why not k8s?

1.4 spark 常用命令

  • spark-shell

spark 提供的终端命令,允许在终端中使用 scala、java、python 等语言编写 spark 程序。

  • spark-sql

spark 提供的终端命令,允许在终端使用 sql 语言操作数据。

  • spark-submit

spark 提供的终端作业提交命令,允许将打包好的程序提交到集群中运行。

常用语法:

1.spark-submit [options] <app jar | python file | R file> [app arguments]2.spark-submit --kill [submission ID] --master [spark://...]3.spark-submit --status [submission ID] --master [spark://...]

可选配置:

--master 运行模式,默认为 local[*]--class 主方法所在类名--name 应用名称--deploy-mode  指定 sparkonyarn 的客户端/集群模式,默认为 client,可以设置为 cluster--executor-memory 执行器内存大小,默认为1g--num-executors 执行器个数,默认为2--executor-cores 每个执行器的 cpu 个数,默认为1--driver-cores 驱动器的 cpu 个数,默认为1,只支持在 cluster 模式下修改--jars 额外依赖的第三方 jar 包--files 需要分发到各节点的数据文件--total-executor-cores 执行器的 cpu 个数,默认为集群中全部可用的 cpu 个数

1.5 spark 底层执行原理

  • 常用名词说明

RDD:一组分布式的存储在节点内存中的只读性数据集,spark 的基本计算单元

DAG:有向无环图,反应了 RDD 之间的依赖关系

STAGE:一个 stage 包含一组相同的 task,也叫做taskset,stage 包含的 task 个数取决于分区个数,一个分区对应一个 task

DAG Scheduler:有向无环图调度器,负责将 DAG 根据宽依赖划分 stage,并将 stage 交给 taskscheduler

taskscheduler:任务调度器,负责将 task 分发给 executor 执行

  • spark 作业运行流程

在这里插入图片描述

1.用户在客户端 spark-submit 提交 spark 程序给 clustermanager;

2.clustermanager 接收到程序之后会找一个 worker 启动 driver ,driver 开始运行 spark 程序的主函数;

3.然后 driver 创建 sparkcontext,将其作为资源调度的总入口,还会初始化 DAGscheduler 与 taskScheduler 以及 sparkenv;

4.driver 开始执行 spark 程序中的各种算子,根据 action 算子划分 job,一个 job 产生一个 DAG,一个 DAG 交给一个 DAGscheduler,根据宽依赖划分 stage(stage 就是 task 集合),然后一个 stage 交给一个 taskscheduler,它会将每个 task 交给 worker 上的 executor 去执行,并且执行器会开启线程去执行这些 task;

5.sparkenv 会启动一些控制组件,进行 shuffle 管理或者广播变量等的管理;

6.当所有 task 完成后,driver 关闭 sc,spark 作业结束。

  • stage 划分

Spark 的计算发生在 RDD 的 Action 操作,而对 Action 之前的所有 Transformation,Spark 只是记录下 RDD 生成的轨迹,而不会触发真正的计算

划分依据:Stage 划分的依据就是宽依赖,像 reduceByKey,groupByKey 等产生shuffle的算子,会导致宽依赖的产生。

窄依赖:父 RDD 的一个分区只会被子 RDD 的一个分区所使用。即一对一的关系。常见的产生窄依赖的算子有:map、filter、union、mapPartitions等。
宽依赖:父 RDD 的一个分区会被子 RDD 的多个分区所使用(涉及到 shuffle)。即一对多的关系。常见的产生宽依赖的算子有 groupByKey、reduceByKey、join等。

核心算法:回溯算法

从后往前回溯,遇到窄依赖就加进当前 Stage,遇见宽依赖进行 Stage 切分。

Spark 内核会从触发 Action 操作的那个 RDD 开始从后往前推,首先会为最后一个 RDD 创建一个 Stage,然后继续倒推,如果发现它对某个 RDD 是宽依赖,那么就会将宽依赖的那个 RDD 创建一个新的 Stage,那个 RDD 就是新的 Stage 的最后一个 RDD。然后依次类推,继续倒推,根据宽依赖进行 Stage 的划分,直到所有的 RDD 全部遍历完成为止。

例如:

在这里插入图片描述

一个 Spark 程序可以有多个 DAG(有几个 Action,就有几个 job ,就有几个 DAG,上图最后只有一个 Action(图中未标出),那么就是一个 DAG)

一个 DAG 可以有多个 Stage(根据宽依赖/shuffle 进行划分)。

同一个 Stage 可以有多个 Task 并行执行(task 数=分区数,如上图,Stage1 中有三个分区 P1、P2、P3,对应的也有三个 Task)。

可以看到这个 DAG 中只有 reduceByKey 操作是一个宽依赖,Spark 内核会以此为边界将其前后划分成不同的 Stage。

同时我们可以注意到,在图中 Stage1 中,从 textFile 到 flatMap 到 map 都是窄依赖,这几步操作可以形成一个流水线操作,通过 flatMap 操作生成的 partition 可以不用等待整个 RDD 计算结束,而是继续进行 map 操作,这样大大提高了计算的效率

2.sparkcore


2.1 SparkContext 介绍

Sparkcontext 是整个 spark 应用程序的上下文,控制应用的生命周期,它负责与 clustermanager 进行通信,并负责对资源的申请与任务分配,最重要的是它可以用来创建 RDD、累加器、广播变量,详情见源码

  • sparkcore编程流程:

两种思路:

一种是在 idea 中编写 spark 代码,构建 Sparkcontext,然后 sc 进行各种操作(构建 RDD、调用一系列算子操作、关闭sc),打包上传到 spark client 上提交作业。

还一种是终端 spark-shell 中编写 spark 代码,不需要创建 sparkcontext,直接进行算子操作。

2.2 RDD 介绍

弹性分布式数据集是 spark 中最基本的数据抽象,主要属性包括:

1.数据分区

用来查看当前 rdd 的分区列表

2.计算函数

该函数由 spark 开发人员使用,用来编写 rdd 计算函数(如 map、flatMap 等算子)

3.依赖关系

展示分区间的依赖关系,可以用来构建血缘系统,当数据分区丢失后通过分区间的依赖关系进行恢复

4.分区方式

类似 mapreduce 的分区,默认采用 hashpartitioner ,键值对类型的 rdd 才会有分区方式

5.最佳位置

rdd 分区放置的最佳位置

数据分区、分区方式、最佳位置,这三个属性其实说的就是数据集在哪,在哪计算更合适,如何分区;
计算函数、依赖关系,这两个属性其实说的是数据集怎么来的。

2.3 RDD 数据分区

  • 数据分区:站在数据的角度思考 RDD,它是由数据分区组成,这些分区运行在集群中的不同节点上,一个 RDD 可以包含多个分区,一个分区被封装成一个 task。例如:

在这里插入图片描述

所以数据分区存储的是真正的数据吗?

数据分区内部并不会存储具体的数据,源码如下:

在这里插入图片描述

由上图知,分区包含一个index字段,表示了该分区在 RDD 内的编号,通过 RDD 编号和分区编号可以唯一确定该分区对应的块编号,进而可以从存储介质(比如hdfs)中提取出分区对应的数据。并且分区方式采用的是hashpartitioner。

  • 分区方式:

spark 通过控制 RDD 分区方式来减少通信开销,只有 kv 类型的 RDD 才会有分区,默认采用hashpartitioner(类似 mapreduce 的分区)

2.4 RDD 操作

2.4.1 RDD 构建

  • 读取外部数据集

常用 textFile、wholeTextFiles、sequenceFile等

 sc.textFile(path[,minPartitions])sc.wholeTextFiles(path[,minPartitions])sc.sequenceFile(path,keyClass,valueClass[,minPartitions])例如:var rdd:RDD[String] = sc.textFile("a.txt",2)

path 可以是文件也可以是目录,也可以是带正则的路径

minpartitions 指定最小分区数

keyClass、valueClass 是指数据文件中 kv 的数据类型

在这里插入图片描述

  • 集合并行化
sc.makeRDD(seq[,numPartition])sc.parallelize(seq[,numPartition])例如:
var rdd = sc.makeRDD(Array(1,2,3,4,5,6),2)

seq指集合,numpartition分区个数(并行度)

分区个数会决定 stage 中 task 的个数,代表了 spark 作业的并行度,那么分区个数可以变吗?

2.4.2 RDD 重分区

通过创建 RDD 我们可以指定分区个数,若我们需要调整分区个数时则需要进行重分区操作

常见重分区方法如下:

在这里插入图片描述
在这里插入图片描述

区别?

repartition 默认shuffle,网络开销大

coalesce 可以设置是否shuffle

如何使用?

调大分区数的时候需要将分区内的数据打乱再分发到多个分区,要shuffle,可以采用 repartition

而调小分区数可以直接让多个分区合并为一个大分区,没必要shuffle,可以采用coalesce,减小网络开销

2.4.3 RDD 算子

RDD 算子分为两大类,transform 算子与 action 算子

常用的转化算子如下:

  • 基于元素进行操作

在这里插入图片描述

常规操作

  • 基于分区进行操作

在这里插入图片描述

连接数据库时可以采用基于分区操作的算子,每个分区创建一个连接对象,避免创建大量连接对象!

  • 聚合操作

在这里插入图片描述

  • 分组操作

在这里插入图片描述

  • 连接操作

在这里插入图片描述

  • 排序操作

在这里插入图片描述

常用的 action 算子如下:

只有 action 算子执行后,transform 算子才会生效!

  • 获取部分元素

在这里插入图片描述

  • 规约操作

在这里插入图片描述

  • 输出到外部系统

在这里插入图片描述

  • 其他操作

在这里插入图片描述

2.4.4 RDD 缓存操作

如果某个 RDD 频繁被使用,可以将 RDD 缓存在内存中,这样后续的其他操作就可以重用 RDD,以此来提高查询速度,缓存操作属于 transform 算子,需要 action 算子执行后才会生效。

常用方法:

  • cache():只存储在内存中
  • persist(持久化级别):指定一个持久化级别进行存储

常用持久化级别:

在这里插入图片描述

RDD 缓存可以把数据放在内存中,虽然很快,但同时也不可靠。我们也可以把数据放在磁盘上,但也不是完全可靠的,因为磁盘可能会坏!那 RDD 怎样才能保证容错呢?

2.4.5 RDD 容错机制 Checkpoint

Checkpoint 的产生就是为了更加可靠的数据持久化,在 Checkpoint 的时候一般把数据放在在 HDFS 上,这就天然的借助了 HDFS 天生的高容错、高可靠来实现数据最大程度上的安全,实现了 RDD 的容错和高可用。

例如:

SparkContext.setCheckpointDir("目录") //HDFS的目录RDD.checkpoint

总结:

  • 开发中如何保证数据的安全性性及读取效率:可以对频繁使用且重要的数据,先做缓存操作,再做 checkpoint 操作。
  • 持久化和 Checkpoint 的区别:
  1. 位置:Persist 和 Cache 只能保存在本地的磁盘和内存中(或者堆外内存中),Checkpoint 可以保存数据到 HDFS 这类可靠的存储上。
  2. 生命周期:Cache 和 Persist 的 RDD 会在程序结束后会被清除或者手动调用 unpersist 方法,Checkpoint 的 RDD 在程序结束后依然存在,不会被删除。

所以,讲到这里可以总结一下 MapReduce 与 spark 的区别:

1.spark 把运算的中间结果保存在内存,迭代计算的效率更高,mr 中间结果保存在磁盘

2.spark 的容错性高,它采用弹性分布式数据集 RDD 实现高效容错( 缓存操作和 checkpoint 机制),某一部分数据如果丢失,可以通过整个计算过程的血缘关系(依赖关系)进行重建,而 mr 的容错只能重新计算。

3.spark更通用,它提供了 transform 算子和 action 算子这两大类 api 算子,而 mr 只有 map 和 reduce 两种方法。

2.5 闭包

运行如下代码,看看现象如何:

class Hello {val param = 1def work(rdd: RDD[Int]) {rdd.map(x => x + param).foreach(println)}
}
object BibaoTest {def main(args:Array[String])={//1.获取SparkConf对象val conf=new SparkConf().setMaster("local[*]").setAppName("BibaoTest")//2.获取SparkContext对象val sc:SparkContext=SparkContext.getOrCreate(conf)sc.setLogLevel("warn")//3.构建rddval rdd=sc.makeRDD(1 to 10)//4.构建对象调用方法val rdd1=new Hellordd1.work(rdd)sc.stop()}
}

该程序产生异常:NotSerializableException

分析:

  • 出现异常的原因:闭包

    ​ 1. 如果 RDD 相关操作需要传递函数,而该函数需要访问外部变量,则此时会产生闭包。

    ​ 2. 闭包需要遵循—定的规则(闭包内的对象必须可以进行序列化),否则会抛出运行时异常。

  • 闭包函数传入到从节点时,需要经过下面的步骤:

    ​ 1. 驱动程序,通过反射,运行时找到闭包访问的所有变量,并封装成一个对象,然后序列化该对象;

    ​ 2. 将序列化后的对象通过网络传输到 worker 节点;

    ​ 3. worker 节点反序列化闭包对象;

    ​ 4. worker 节点执行闭包函数;

简而言之,通过网络,传递闭包函数,然后执行闭包函数。本地执行时,仍然会按照以上四步进行。

  • 解决办法

1.让闭包所在的类实现序列化接口;

class Hello extends Serializable {val param = 1def work(rdd: RDD[Int]) {rdd.map(x => x + param).foreach(println)}
}

2.尽量避免在闭包中使用全局变量;

class Hello {val param = 1def work(rdd: RDD[Int]) {val _param = this.paramrdd.map(x => x + _param).foreach(println)}
}

2.6 累加器与广播变量

首先,以分割字符串的过程中统计 RDD 中空行出现的次数为例:

val file=sc.textFile("a.txt")
var blankLines=0
val callSigns=file.flatMap(line => {if (line == ""){blankLines +=1}line.split(" ")})
callSigns.saveAsTextFile("output.txt")
println("Blank lines:"+blankLines)

结果为?

  • 分析:外部变量在闭包内的修改不会被反馈到驱动程序

  • 解决方法:使用共享变量解决该问题

spark 支持两种共享变量:

  • 累加器

    对数据信息进行聚合(聚合到驱动器程序中);

  • 广播变量

    用来高效分发较大的只读对象;

2.6.1 累加器

  • 累加器类型:
  1. LongAccumulator

  2. DoubleAccumulator

  3. CollectionAccumulator

  4. 自定义累加器(继承抽象类 AccumulatorV2)

  • 累加器方法(借助于 SparkContext 类中的方法):

构造:

  1. longAccumulator(name:String): LongAccumulator

  2. doubleAccumulator(name:String): DoubleAccumulator

  3. collectionAccumulator[T] (name:String): CollectionAccumulator[T]

(推荐在构造累加器的时候指定名字,这样在 spark web 界面就可以看到累加器了)

使用:

  1. 执行器代码可以使用累加器的 add 方法增加累加器的值

  2. 驱动器程序可以调用累加器的 value 属性来访问累加器的值

  • 上述案例代码修改:
val file=sc.textFile("src/SparkTestFiles/count1.txt")
//var blankLines=0
val blankLines=sc.longAccumulator("blankLines");
val callSigns=file.flatMap(line => {if (line == ""){//blankLines +=1blankLines.add(1);}line.split(" ")})
callSigns.saveAsTextFile("src/SparkTestFiles/output.txt")
println("Blank lines:"+blankLines.value)

2.6.2 广播变量

将一个只读数据(非 RDD)通过广播的形式广播到各个执行器节点,并将该数据序列化缓存到节点上。

  • 广播方法:

broadcast[T: ClassTag] (value: T): Broadcast[T]

(传入一个变量,将其变为广播变量)

  • 广播用法:

观察如下代码:

//大数据集合
val list=1 to 100;
//获取RDD
val rdd=sc.parallelize(List(1,300,10,33,24,51,67,112,346,14,5))
//第一个job
rdd.filter(num=>{list.contains(num)
}).foreach(println)println("----")//第二个job
rdd.map(num=>{list.contains(num)
}).foreach(println)

说明:

  1. 两个 job 中使用了匿名函数的非局部变量 list

  2. 非局部变量 list 是一个较大的只读值

使用广播变量优化:

//为list创建广播变量
val list=1 to 100;
val broadcast=sc.broadcast(list);
//获取RDD
val rdd=sc.parallelize(List(1,300,10,33,24,51,67,112,346,14,5))
//第一个job
rdd.filter(num=>{val list=broadcast.valuelist.contains(num)
}).foreach(println)println("----")//第二个job
rdd.map(num=>{val list=broadcast.valuelist.contains(num)
}).foreach(println)

说明:

  1. 参数只会被广播到各个节点一次,应作为只读值处理,不应该再修改。

  2. 通过 Broadcast 对象的 value 属性访问该参数的值。

对比以上两种代码,可以得知广播变量的优缺点:

优点︰避免多次数据传输,进而减少通信的开销提高计算效率

缺点∶使用广播会使代码不够简洁

  • 广播优化:

当广播一个比较大的值时,选择既快又好的序列化格式非常重要。

Spark 支持的序列化:

  1. JavaSerializer 序列化

    i. Spark 的 Scala 和 Java 的 API 默认使用 JAVA 的序列化进行序列化

    ii. JavaSerializer 除基本类型以及基本类型的数组之外,其他类型都比较低效

  2. KryoSerializer [k’raɪəʊ] 序列化

    Kryo 是一个快速且高效的针对 Java 对象序列化的框架,

    特点:

    i. 序列化的性能非常高

    ii. 序列化结果体积较小

    iii. 提供了简单易用的 API

    用法:

    conf.set(“spark.serializer”,“org.apache.spark.serializer.KryoSerializer”)

    conf.registerKryoClasses(Array(classOf[MyClass1],classOf[MyClass2] ))

  3. 自定义序列化

    Spark-Sql 中的核心抽象模型 Dataset 使用 Encoder[T] 专业编码器来替换序列化。

3.sparksql


3.1 sparksql 介绍

Spark SQL 是 Spark 中处理结构化数据的模块。提供了一种新的编程抽象 DataFrame/Dataset,并且可以充当分布式 SQL 查询引擎。

  • 集成:无缝地将 SQL 查询集成到 Spark 程序中。
  • 统—数据访问:使用统一的方式连接到常见数据源。
  • Hive兼容:通过配置可以直接兼容 Hive,运行查询 Hive 数据。
  • 标准的连接:通过 JDBC、ODBC 连接。Spark SQL 包括具有行业标准 JDBC 和 ODBC 连接的服务器模式。

在这里插入图片描述

3.2 sparksql 发展历程

Hive

Hive 是基于 Hadoop 的一个数据仓库工具

  • 可以将结构化的数据文件映射为一张数据库表;
  • 可以提供简单的 SQL 查询功能;
  • 可以将 SQL 语句转换为 MapReduce 任务并行运算;

Hive 计算引擎依赖于 MapReduce 框架

  • 随着时代的发展,对数据提取转化加载(ETL)需求越来越大;
  • 因此开发一个更加高效的 SQL-on-Hadoop 工具更加的迫切;

shark

Shark 便是其中之一

  • 修改了 Hive 中内存管理、物理计划、执行这三个模块,运行在 Spark 引擎上,使得 SQL 查询的速度得
    到10-100倍的提升。

在这里插入图片描述

随着 Spark 的发展

  • Shark 对于 Hive 太多依赖
  • 制约了 Spark 各个组件的相互集成
  • 所以提出了 SparkSQL 项目
  • 2014年宣布:停止开发 shark,至此 Shark 的发展画上了句号
  • SparkSQL 作为 Spark 生态的一员继续发展
  • 不再受限于 Hive,只是兼容 Hive

Hive on Spark 是 Hive 的发展计划

  • 该计划将 Spark 作为 Hive 的底层引擎之一

  • 也就是说,Hive 将不再受限于一个引擎。可以采用 MapReduce、Spark 等引擎

在这里插入图片描述

Shark 的出现,使得 SQL-on-Hadoop 的性能比 Hive 有了10-100倍的提高。

在这里插入图片描述

摆脱了 Hive 的限制,SparkSQL 的性能与 Shark 对比,也有很大的提升。

在这里插入图片描述

为什么 sparksql 的性能会得到如此大的提升呢?

3.3 sparksql 优点

SparkSQL 主要是在以下三点做了优化(主要是与 Sparkcore 对比):

  • 内存列存储(In-Memory Columnar Storage)

    • SparkSQL 的表数据在内存中存储不是采用原生态的 JVM 对象存储方式,而是采用内存列存储,如下图所示。

在这里插入图片描述

  • 采用了内存列存储之后,减少了对内存的消耗,减少 JVM 的 GC 性能开销。

  • 字节码生成技术(bytecode generation,即 CG)

    • Spark SQL 在其 catalyst 模块的 expressions 中增加了 codegen 模块。
    • 对于 SQL 语句中的计算表达式,比如 select num + num from t 这种的 sql,就可以使用动态字节码生成技术来优化其性能。
  • Scala 代码优化

  • 使用 Scala 编写的代码,对可能造成较大性能开销的代码,Spark SQL 底层会使用更加复杂的方式进行重写,来获取更好的性能。

  • 比如 option 样例类、for 循环、map/filter/foreach 等高阶函数,以及不可变对象,都改成了用 null、while 循环等来实现,并且重用可变的对象。

3.4 sparksql 架构

3.4.1 基础架构

SparkSQL 语句由三部分组成,分别对应 SQL 查询过程中的 Result、Data Source、Operation。

  • Projection (a1,a2,a3)
  • Data Source (tableA)
  • Filter (condition)

SQL 语句按 Result–>Data Source–>Operation 的次序描述。

在这里插入图片描述

3.4.2 执行流程

执行 SQL 语句的一般顺序为∶

1.对读入的 SQL 语句进行解析(Parse)

  • 分辨出 SQL 语句中哪些词是关键词(如 SELECT、FROM、WHERE) ;
  • 哪些是表达式;
  • 哪些是 Projection;
  • 哪些是 Data Source 等;
  • 从而判断 SQL 语句是否规范;

2.将 SQL 语句和数据库的数据字典(列、表、视图等等)进行绑定(Bind)。

  • 如果相关的 Projection、Data Source 等都是存在的话,就表示这个 SQL 语句是可以执行的。

3.一般数据库会提供几个执行计划,这些计划一般都有运行统计数据,数据库会在这些计划中选择一个最优计划(Optimize)。

4.计划执行(Execute),按 Operation–>Data Source–>Result 的次序来进行。

  • 在执行过程有时候甚至不需要读取物理表就可以返回结果。
  • 比如重新运行刚运行过的 SQL 语句,可能直接从数据库的缓冲池中获取返回结果。

3.4.3 catalyst 解析与优化

Catalyst 是 Spark SQL 执行优化器的代号,所有 Spark SQL 语句最终都能通过它来解析、优化,最终生成可以执行的 Java 字节码。catalyst 采用的数据结构是 Tree 和 Rule,数和规则构成了 catalyst 解析优化器:

  • Catalyst 最主要的数据结构是树,所有 SQL 语句都会用树结构来存储,树中的每个节点都拥有特定的数据类型,以及0或多个子节点。Scala 中定义的新的节点类型都是 TreeNode 这个类的子类。
  • Catalyst 另外一个重要的数据结构是规则。基本上,所有优化都是基于规则的。可以用规则对树进行操作,树中的节点是只读的,所以树也是只读的。规则中定义的函数可能实现从一棵树转换成一颗新树。

优化策略:

  • RBO(Rule-based optimization) 基于规则的优化

    • 优化思路主要是减少参与计算的数据量以及计算本身的代价。
  • CBO(Cost-based optimization) 基于代价优化策略

    • 它充分考虑了数据本身的特点(如大小、分布)以及操作算子的特点(中间结果集的分布及大小)及代价,从而更好的选择执行代价最小的物理执行计划,即 SparkPlan。

整个Catalyst 的执行过程主要分为以下5个阶段:

  1. 解析阶段,解析出关键字,生成逻辑语法树
  2. 分析阶段,分析逻辑树,解决引用;
  3. 逻辑优化阶段;
  4. 物理计划阶段,Catalyst 会生成多个计划,并基于成本进行对比;
  5. 代码生成阶段;

具体过程:
在这里插入图片描述

sparksql 程序经过 catalyst 的解析与优化后,最终会以 RDD 的方式(转变为 job、dag、stage)去执行 Physical Plan。

下面通过一个简单的示例进行解释:

Parser

Parser 简单来说是将 SQL 关键词切分成一个一个 Token,再根据一定语义规则解析为一棵语法树(根据关键字)。Parser 模块目前基本都使用第三方类库 ANTLR 进行实现,比如 Hive、 Presto、SparkSQL 等。下图是一个示例性的 SQL 语句(有两张表,其中 people 表主要存储用户基本信息,score 表存储用户的各种成绩),通过 Parser 解析后的 AST 语法树如下图所示:
在这里插入图片描述

Analyzer

通过解析后的逻辑执行计划基本有了骨架,但是系统并不知道 score、people 这些都是些什么玩意儿,此时需要基本的元数据信息(catalog)来表达这些名词,最重要的元数据信息主要包括两部分:表的 Schema 和基本函数信息,表的 schema 主要包括表的基本定义(列名、数据类型)、表的数据格式(Json、Text)、表的物理位置等,基本函数信息主要指函数的类信息(聚合函数、udf)。

Analyzer 会再次遍历整个语法树,对树上的每个节点进行数据类型绑定以及函数绑定,比如 people 这个词会根据元数据表信息解析为包含 age、id 以及 name 三列的表,people.age 会被解析为数据类型为 int 的变量,sum 会被解析为特定的聚合函数,如下图所示:

img

Optimizer

优化器是整个 Catalyst 的核心,上面提到优化器分为基于规则优化和基于代价优化两种,此处先介绍基于规则的优化策略,基于规则的优化策略实际上就是对语法树进行一次遍历,模式匹配能够满足特定规则的节点,再进行相应的等价转换。因此,基于规则优化说到底就是一棵树等价地转换为另一棵树。SQL 中经典的优化规则有很多,下文结合示例介绍三种比较常见的规则:谓词下推(Predicate Pushdown)、常量累加(Constant Folding)和列值裁剪(Column Pruning)。

img

上图是经过 Analyzer 解析后的语法树,语法树中两个表先做 join,之后再使用 age>10 对结果进行过滤。我们知道 join 算子通常是一个非常耗时的算子,耗时多少一般取决于参与 join 的两个表的大小,如果能够减少参与 join 两表的大小,就可以大大降低 join 算子所需时间。谓词下推就是这样一种功能,它会将过滤操作下推到 join 之前进行,上图中过滤条件 age>0 以及 id!=null 两个条件就分别下推到了 join 之前。这样,系统在扫描数据的时候就对数据进行了过滤,参与 join 的数据量将会得到显著的减少,join 耗时必然也会降低。

img

常量累加其实很简单,就是上文中提到的规则 x+(1+2) -> x+3,虽然是一个很小的改动,但是意义巨大。示例如果没有进行优化的话,每一条结果都需要执行一次100+80的操作,然后再与变量 math_score 以及 english_score 相加,而优化后就不需要再执行 100+80 操作。

img

列值裁剪是另一个经典的规则,示例中对于 people 表来说,并不需要扫描它的所有列值,而只需要列值id,所以在扫描 people 之后需要将其他列进行裁剪,只留下列 id。这个优化大幅度减少了网络、内存数据量消耗。

至此,逻辑执行计划已经得到了比较完善的优化,然而,逻辑执行计划依然没办法真正执行,他们只是逻辑上可行,实际上 Spark 并不知道如何去执行这个东西。比如 Join 只是一个抽象概念,代表两个表根据相同的 id 进行合并,然而具体怎么实现这个合并,逻辑执行计划并没有说明。

img

此时就需要将逻辑执行计划转换为物理执行计划,将逻辑上可行的执行计划变为Spark可以真正执行的计划。比如 Join 算子,Spark 根据不同场景为该算子制定了不同的算法策略,有 BroadcastHashJoin、ShuffleHashJoin 以及 SortMergeJoin 等(可以将 Join 理解为一个接口,BroadcastHashJoin 是其中一个具体实现),物理执行计划实际上就是在这些具体实现中挑选一个耗时最小的算法实现。

如何查看catalyst解析优化的整个过程?

1.使用 queryExecution 方法查看逻辑执行计划,使用 explain 方法查看物理执行计划,分别如下所示:

img

img

2.使用Spark WebUI进行查看,如下图所示:
在这里插入图片描述
在这里插入图片描述

3.5 SparkSession

详情见 sparksql 官方文档

https://spark.apache.org/docs/latest/sql-programming-guide.html

3.6 DataFrame 与 Dataset

详情见 sparksql 官方文档

https://spark.apache.org/docs/latest/sql-programming-guide.html

3.7 sparksql 操作

详情见 sparksql 官方文档

https://spark.apache.org/docs/latest/sql-programming-guide.html

3.7.1 DSL

3.7.2 SQL

3.8 DF、Ds、RDD 对比

抽象模型RDD的优缺点:

  • 优点

    1.功能强大

    内置很多函数操作,group、map、filter 等方便处理结构化或非结构化数据

    2.面向对象编程

    直接存储对象类型转化也安全

  • 缺点

    1.通用性强

    因此没有针对特殊场景的优化,比如对于结构化数据处理相对于 SQL 来比非常麻烦。

    2.序列化结果较大

    默认采用的是 Java 序列化方式,而且数据存储在 Java 堆内存中,导致GC比较频繁。

DataFrame 引入了 schema 和 off-heap

  • schema

    1.结构信息

    2.Spark 通过 scheme 能读懂数据

  • off-heap

    1.指 JVM 堆以外的内存,直接受操作系统管理(而不是 JVM )

    2.Spark 能够将数据按照二进制的形式序列化到 off-heap 中

DataFrame的优缺点

  • 优点

    1.处理结构化数据非常方便。

    2.采用堆外内存,gc 开销小

    3.与 Hive 兼容,且支持 HQL、UDF 等

  • 缺点

    1.编译时不能进行类型转化安全检查,运行时才能确定是否有问题。

    2.序列化开销仍需要改进。

    3.对于对象支持不友好

    ​ RDD 内部数据直接以对象形式存储

    ​ DataFrame 存储的是 Row 对象而不能是自定义对象

Dataset

  • Spark1.6 之后新添加的特性,优化了 Spark SQL 执行引擎。

  • API 目前只支持 Scala 和 Java。

  • 结合了 RDD 和 DataFrame 的优点,并引入一个新的概念 Encoder 。

    当序列化数据时, Encoder 产生字节码与 off-heap 进行交互,能够达到按需访问数据的效果,而不用反序列化整个对象。Spark 目前还没有提供自定义 Encoder 的 API。

Datasets 与 RDDs是很相似的,不同的是在网络中传输对象时

  • RDD 使用 Java 序列化或 Kryo 序列化方式
  • Datasets 使用专业 Encoder

编码器与序列化

  • 相同之处

    编码器和序列化都负责将对象转换为字节

  • 不同之处

    编码器是动态生成的代码,不需要将字节反序列化为对象。

    Spark 就可以直接执行许多操作(filter、sort 和 shuffle 等)。

Dataset的优点

  • Dataset 整合了 RDD 和 DataFrame 的优点,支持结构化和非结构化数据;

  • 和 RDD —样,支持自定义对象存储;

  • 和 DataFrame —样,支持结构化数据的 SQL 查询;

  • 采用堆外内存存储,GC 友好; 类型转化安全,代码友好;

三者总结

RDD API 是函数式的,强调不变性,在大部分场景下倾向于创建新对象而不是修改老对象。

  • 优点:带来了干净整洁的 API
  • 缺点:在运行期倾向于创建大量临时对象,对 GC 造成压力

为了解决上述缺点

  • 可以利用 mapPartitions 方法来重载 RDD 单个分片内的数据创建方式
  • 可以利用可复用的可变对象的方式来减小对象分配和 GC 的开销
查看全文
如若内容造成侵权/违法违规/事实不符,请联系编程学习网邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

相关文章

  1. SpringBoot - 原理 - 再看自动装配

    上文说到&#xff0c;当我们的主方法启动时&#xff0c;标有 SpringBootApplication 注解的主类&#xff08;实际起到自动装配功能的为其父注解 EnableAutoConfiguration&#xff09;会加载其父注解中 Import 里配置的 ImportSelector 接口的实现类 AutoConfigurationImportSel…...

    2024/5/7 14:20:38
  2. 【Swift】LeedCode IP 地址无效化

    【Swift】LeedCode IP 地址无效化 由于各大平台的算法题的解法很少有Swift的版本&#xff0c;小编这边将会出个专辑为手撕LeetCode算法题。新手撕算法。请包涵&#xff01;&#xff01; 给你一个有效的 IPv4 地址 address&#xff0c;返回这个 IP 地址的无效化版本。所谓无效化…...

    2024/4/14 6:52:19
  3. JAVA输入1~7输出星期一~星期日

    输入1~7数字&#xff0c;输出对应的星期一~星期日 源代码&#xff1a; import java.util.Scanner;public class Test1 {public static void main(String[] args){System.out.println("请输入1-7的数字");Scanner sc new Scanner(System.in);for(int i1;i<7;i){…...

    2024/5/7 18:12:11
  4. 全球与中国聚酯纤维市场深度研究分析报告(2022)

    【报告篇幅】&#xff1a;107 【报告图表数】&#xff1a;145 【报告出版时间】&#xff1a;2021年12月 报告摘要 2021年全球聚酯纤维市场销售额达到了606.8亿美元&#xff0c;预计2028年将达到594亿美元&#xff0c;年复合增长率&#xff08;CAGR&#xff09;为-0.3%&…...

    2024/5/6 17:17:26
  5. 年关走访慰问要身至更要心至

    “重民生、暖民心、解民忧”是各级党和政府的责任和义务。开展好各项扶贫济困、走访慰问活动对于保障困难群众、弱势群体的基本生活权益&#xff0c;维护社会稳定&#xff0c;密切干群关系将起到较大的推动作用。时至岁末&#xff0c;春节将至。各单位都将陆续开展走访慰问工作…...

    2024/4/14 6:53:15
  6. mui-app开发05:调用相机功能

    关于相机调用的API文档参见HTML5 API Reference (html5plus.org)中的camera模板&#xff0c;本文设计的所有API的接口帮助文档均参见上述连接&#xff0c;这里只介绍API的应用&#xff0c;接口的帮助请查看具体帮助手册。 目录 1 配置相机权限 2. 编写拍照代码 2.1 获取相机…...

    2024/5/7 23:50:28
  7. 信息收集学习笔记

    0x00 渗透测试流程&#xff08;常规&#xff09; 前期交互阶段&#xff1a;沟通测试范围&#xff0c;时间&#xff0c;预期 准备阶段&#xff1a;资产信息整理&#xff0c;漏洞发现与挖掘 漏洞分析阶段&#xff1a;整理漏洞结果&#xff0c;汇总高可利用漏洞 漏洞验证阶段&…...

    2024/5/7 16:13:36
  8. linux网络命令--traceroute

    一、简介 1、功能介绍 一个 IP 包需要经过一系列路由的转发&#xff0c;才能到达目的地。下图是一个典型的例子&#xff0c;一个从主机 ant 出发&#xff0c;去往主机 apple 的 IP 包&#xff0c;需要经过中间路由 R1 、R2 以及 R3 &#xff1a; 如果我们在主机ant ping appl…...

    2024/5/3 17:20:21
  9. 推荐CI/CD工具

    1.Travis CI 与Jenkins一样&#xff0c;Travis C也是CI/CD Pipeline工具市场的先行者之一。它最初仅针对开源项目推出&#xff0c;后来迁移到支持闭源项目。如果你的项目在GitHub或Bitbucket中&#xff0c;那么用Ruby编程语言编写的Travis CI是开源和企业级项目的最佳CI/CD工具…...

    2024/4/18 10:04:57
  10. spring内嵌cglib包,这里藏着一个大坑

    问题发现 2022-01-21 早上 9 点&#xff0c;订单系统出现大面积的“系统未知错误”报错&#xff0c;导致部分用户无法正常下单。查询后台日志&#xff0c;可以看到大量的 duplicate class attempt。 java.lang.LinkageError-->loader (instance of org/springframework/b…...

    2024/5/3 10:38:52
  11. 迅为IMX8M mini开发板Linix系统修改默认屏幕

    本文档主要介绍 Linux 修改默认屏幕&#xff0c;iTOP-iMX8MM 开发板烧写好之后&#xff0c;默认是 lvds 7 寸屏幕的系统参 数和屏幕参数&#xff0c; 如下图所示。输入以下命令查看默认启动参数。 printenv 比较重要的环境变量或者说经常使用的环境变量&#xff0c;已经在上图中…...

    2024/5/2 6:16:01
  12. Metrics Server配置

    目录前提配置下载需要的yaml文件前提 在学习k8s的时候&#xff0c;用到kubectl top命令查看资源使用情况&#xff0c;出现命令不可用&#xff0c;使用kubectl top -h命令提示&#xff0c;This command requires Metrics Server to be correctly configured and working on the…...

    2024/4/14 6:52:45
  13. Android 7.0以上版本 HTTPS 抓包解决方法

    HTTP 协议发展至今&#xff0c;已经有二十多年的历史&#xff0c;整个发展的趋势主要是两个方向&#xff1a;效率 & 安全。 效率方面&#xff0c;从 HTTP1.0 的一次请求一个连接&#xff0c;到 HTTP1.1 的连接复用&#xff0c;到 SPDY/HTTP2 的多路复用&#xff0c;到 QUI…...

    2024/4/20 2:24:26
  14. Qt中.pro.pri的配置详解

    pro即为qmake 的工程(project)文件&#xff0c;pri文件中的i 是包含(include)的首字母。类似于C、C中的头文件&#xff0c;就是我们可以把 .pro 文件内的一部分单独放到一个 .pri 文件内&#xff0c;然后包含进来。在每个项目project文件中使用include类似包含头文件那样就可以…...

    2024/4/27 20:24:54
  15. zabbix利用自带模板监控mysql

    步骤参考&#xff1a;zabbix使用自带模板监控MySQL - 木与风 - 博客园 先放出完整步骤&#xff1a; 1&#xff0c;创建数据库监控用户 mysql -uroot -proot GRANT USAGE ON *.* TO mysqlchecklocalhost IDENTIFIED BY mysqlcheck; FLUSH PRIVILEGES; 注意&#xff1a;当出现错…...

    2024/4/15 8:57:18
  16. ssh连接docker+clion连接docker

    1. 启动容器 docker run -td --privileged --name"orb3ssh1" --gpusall -e "DISPLAY$DISPLAY" -e "QT_X11_NO_MITSHM1" -v "/tmp/.X11-unix:/tmp/.X11-unix:rw" -e "XAUTHORITY$XAUTH" -e ROS_IP…...

    2024/4/28 20:59:48
  17. Linuxcnc2.82版本安装流程

    访问&#xff1a;Downloads (linuxcnc.org) https://linuxcnc.org/Downloads 选中LinuxCNC 2.8.2 Debian 10 Buster PREEMPT-RT ISO 镜像文件镜像下载完成之后&#xff0c;可以用RUFUS工具生成系统启动盘&#xff0c;接下来就是安装了 安装步骤可以参考百度/CSDN 例如&#x…...

    2024/4/23 2:38:15
  18. node反向代理,解决跨域(http-proxy-middleware)

    node反向代理&#xff0c;解决跨域 var express require(express); //解构赋值 const { createProxyMiddleware } require(http-proxy-middleware); const app express(); app.all(*, function (req, res, next) {console.log("")console.log(req.url)console.lo…...

    2024/5/6 1:56:27
  19. 计算机专业就业方向有哪些呢?如何进大厂实习拿offer

    2022年互联网行业迎来很多大的变革&#xff0c;双减政策下&#xff0c;很多互联网教育公司砍掉了很多业务&#xff0c;也有一批程序员们面临着再次就业的需求&#xff0c;而对于计算机专业在校生而言&#xff0c;2022年计算机专业就业方向有哪些呢?如何在毕业前进大厂实习拿of…...

    2024/4/17 22:00:59
  20. UVM入门与进阶学习笔11——TLM通信(2)

    目录单向通信双向通信分类多向通信单向通信 单向通信指的是从initiator到target之间的数据流向是单一方向的&#xff0c;或者说initiator和target只能扮演producer和consumer中的一个角色。 UVM中单一数据流向的TLM端口有很多类型&#xff1a;&#xff08;其中PORT代表了三种…...

    2024/4/20 4:35:11

最新文章

  1. 【计算机科学速成课】笔记三

    文章目录 17.集成电路真空管时代晶体管时代集成电路时代印刷电路板时代光刻时代 17.集成电路 Over the past six episodes, we delved into software, 过去 6 集我们聊了软件 \N 从早期编程方式到现代软件工程 from early programming efforts to modern software engineerin…...

    2024/5/8 3:29:46
  2. 梯度消失和梯度爆炸的一些处理方法

    在这里是记录一下梯度消失或梯度爆炸的一些处理技巧。全当学习总结了如有错误还请留言&#xff0c;在此感激不尽。 权重和梯度的更新公式如下&#xff1a; w w − η ⋅ ∇ w w w - \eta \cdot \nabla w ww−η⋅∇w 个人通俗的理解梯度消失就是网络模型在反向求导的时候出…...

    2024/5/7 10:36:02
  3. Gin环境搭建详解

    Gin环境搭建详解&#xff1a; 要安装Gin软件包&#xff0c;需要先安装Go并设置Go工作区。Gin环境搭建步骤如下&#xff1a; 【Gin框架】Gin环境搭建 Gin程序的热加载 Gin路由 GET POST PUT DELETE 1. 下载并安装 gin &#xff1a; $ go get -u github.com/gin-gonic/gin 2. …...

    2024/5/3 18:31:56
  4. Go语言map、slice、channel底层实现(go面试)

    slice 切片是一个引用类型&#xff0c;其底层实现是一个结构体&#xff0c;包含以下字段&#xff1a; ptr&#xff1a;一个指向底层数组的指针&#xff0c;指针指向数组的第一个元素。 len&#xff1a;切片当前包含的元素数量。 cap&#xff1a;切片的容量&#xff0c;即底层…...

    2024/5/5 1:45:06
  5. Linux的软链接和硬链接

    1、软链接 概念&#xff1a;给文件创建一个快捷方式&#xff0c;依赖原文件&#xff0c;和普通文件没有区别。 特性&#xff1a; 可以给存在的文件或目录创建软链接可以给不存在的文件或目录创建软链接可以跨文件系统创建软链接删除软链接不影响原文件、删除原文件会导致软链…...

    2024/5/7 17:16:27
  6. 【外汇早评】美通胀数据走低,美元调整

    原标题:【外汇早评】美通胀数据走低,美元调整昨日美国方面公布了新一期的核心PCE物价指数数据,同比增长1.6%,低于前值和预期值的1.7%,距离美联储的通胀目标2%继续走低,通胀压力较低,且此前美国一季度GDP初值中的消费部分下滑明显,因此市场对美联储后续更可能降息的政策…...

    2024/5/7 5:50:09
  7. 【原油贵金属周评】原油多头拥挤,价格调整

    原标题:【原油贵金属周评】原油多头拥挤,价格调整本周国际劳动节,我们喜迎四天假期,但是整个金融市场确实流动性充沛,大事频发,各个商品波动剧烈。美国方面,在本周四凌晨公布5月份的利率决议和新闻发布会,维持联邦基金利率在2.25%-2.50%不变,符合市场预期。同时美联储…...

    2024/5/7 9:45:25
  8. 【外汇周评】靓丽非农不及疲软通胀影响

    原标题:【外汇周评】靓丽非农不及疲软通胀影响在刚结束的周五,美国方面公布了新一期的非农就业数据,大幅好于前值和预期,新增就业重新回到20万以上。具体数据: 美国4月非农就业人口变动 26.3万人,预期 19万人,前值 19.6万人。 美国4月失业率 3.6%,预期 3.8%,前值 3…...

    2024/5/4 23:54:56
  9. 【原油贵金属早评】库存继续增加,油价收跌

    原标题:【原油贵金属早评】库存继续增加,油价收跌周三清晨公布美国当周API原油库存数据,上周原油库存增加281万桶至4.692亿桶,增幅超过预期的74.4万桶。且有消息人士称,沙特阿美据悉将于6月向亚洲炼油厂额外出售更多原油,印度炼油商预计将每日获得至多20万桶的额外原油供…...

    2024/5/7 14:25:14
  10. 【外汇早评】日本央行会议纪要不改日元强势

    原标题:【外汇早评】日本央行会议纪要不改日元强势近两日日元大幅走强与近期市场风险情绪上升,避险资金回流日元有关,也与前一段时间的美日贸易谈判给日本缓冲期,日本方面对汇率问题也避免继续贬值有关。虽然今日早间日本央行公布的利率会议纪要仍然是支持宽松政策,但这符…...

    2024/5/4 23:54:56
  11. 【原油贵金属早评】欧佩克稳定市场,填补伊朗问题的影响

    原标题:【原油贵金属早评】欧佩克稳定市场,填补伊朗问题的影响近日伊朗局势升温,导致市场担忧影响原油供给,油价试图反弹。此时OPEC表态稳定市场。据消息人士透露,沙特6月石油出口料将低于700万桶/日,沙特已经收到石油消费国提出的6月份扩大出口的“适度要求”,沙特将满…...

    2024/5/4 23:55:05
  12. 【外汇早评】美欲与伊朗重谈协议

    原标题:【外汇早评】美欲与伊朗重谈协议美国对伊朗的制裁遭到伊朗的抗议,昨日伊朗方面提出将部分退出伊核协议。而此行为又遭到欧洲方面对伊朗的谴责和警告,伊朗外长昨日回应称,欧洲国家履行它们的义务,伊核协议就能保证存续。据传闻伊朗的导弹已经对准了以色列和美国的航…...

    2024/5/4 23:54:56
  13. 【原油贵金属早评】波动率飙升,市场情绪动荡

    原标题:【原油贵金属早评】波动率飙升,市场情绪动荡因中美贸易谈判不安情绪影响,金融市场各资产品种出现明显的波动。随着美国与中方开启第十一轮谈判之际,美国按照既定计划向中国2000亿商品征收25%的关税,市场情绪有所平复,已经开始接受这一事实。虽然波动率-恐慌指数VI…...

    2024/5/7 11:36:39
  14. 【原油贵金属周评】伊朗局势升温,黄金多头跃跃欲试

    原标题:【原油贵金属周评】伊朗局势升温,黄金多头跃跃欲试美国和伊朗的局势继续升温,市场风险情绪上升,避险黄金有向上突破阻力的迹象。原油方面稍显平稳,近期美国和OPEC加大供给及市场需求回落的影响,伊朗局势并未推升油价走强。近期中美贸易谈判摩擦再度升级,美国对中…...

    2024/5/4 23:54:56
  15. 【原油贵金属早评】市场情绪继续恶化,黄金上破

    原标题:【原油贵金属早评】市场情绪继续恶化,黄金上破周初中国针对于美国加征关税的进行的反制措施引发市场情绪的大幅波动,人民币汇率出现大幅的贬值动能,金融市场受到非常明显的冲击。尤其是波动率起来之后,对于股市的表现尤其不安。隔夜美国股市出现明显的下行走势,这…...

    2024/5/6 1:40:42
  16. 【外汇早评】美伊僵持,风险情绪继续升温

    原标题:【外汇早评】美伊僵持,风险情绪继续升温昨日沙特两艘油轮再次发生爆炸事件,导致波斯湾局势进一步恶化,市场担忧美伊可能会出现摩擦生火,避险品种获得支撑,黄金和日元大幅走强。美指受中美贸易问题影响而在低位震荡。继5月12日,四艘商船在阿联酋领海附近的阿曼湾、…...

    2024/5/4 23:54:56
  17. 【原油贵金属早评】贸易冲突导致需求低迷,油价弱势

    原标题:【原油贵金属早评】贸易冲突导致需求低迷,油价弱势近日虽然伊朗局势升温,中东地区几起油船被袭击事件影响,但油价并未走高,而是出于调整结构中。由于市场预期局势失控的可能性较低,而中美贸易问题导致的全球经济衰退风险更大,需求会持续低迷,因此油价调整压力较…...

    2024/5/4 23:55:17
  18. 氧生福地 玩美北湖(上)——为时光守候两千年

    原标题:氧生福地 玩美北湖(上)——为时光守候两千年一次说走就走的旅行,只有一张高铁票的距离~ 所以,湖南郴州,我来了~ 从广州南站出发,一个半小时就到达郴州西站了。在动车上,同时改票的南风兄和我居然被分到了一个车厢,所以一路非常愉快地聊了过来。 挺好,最起…...

    2024/5/7 9:26:26
  19. 氧生福地 玩美北湖(中)——永春梯田里的美与鲜

    原标题:氧生福地 玩美北湖(中)——永春梯田里的美与鲜一觉醒来,因为大家太爱“美”照,在柳毅山庄去寻找龙女而错过了早餐时间。近十点,向导坏坏还是带着饥肠辘辘的我们去吃郴州最富有盛名的“鱼头粉”。说这是“十二分推荐”,到郴州必吃的美食之一。 哇塞!那个味美香甜…...

    2024/5/4 23:54:56
  20. 氧生福地 玩美北湖(下)——奔跑吧骚年!

    原标题:氧生福地 玩美北湖(下)——奔跑吧骚年!让我们红尘做伴 活得潇潇洒洒 策马奔腾共享人世繁华 对酒当歌唱出心中喜悦 轰轰烈烈把握青春年华 让我们红尘做伴 活得潇潇洒洒 策马奔腾共享人世繁华 对酒当歌唱出心中喜悦 轰轰烈烈把握青春年华 啊……啊……啊 两…...

    2024/5/4 23:55:06
  21. 扒开伪装医用面膜,翻六倍价格宰客,小姐姐注意了!

    原标题:扒开伪装医用面膜,翻六倍价格宰客,小姐姐注意了!扒开伪装医用面膜,翻六倍价格宰客!当行业里的某一品项火爆了,就会有很多商家蹭热度,装逼忽悠,最近火爆朋友圈的医用面膜,被沾上了污点,到底怎么回事呢? “比普通面膜安全、效果好!痘痘、痘印、敏感肌都能用…...

    2024/5/5 8:13:33
  22. 「发现」铁皮石斛仙草之神奇功效用于医用面膜

    原标题:「发现」铁皮石斛仙草之神奇功效用于医用面膜丽彦妆铁皮石斛医用面膜|石斛多糖无菌修护补水贴19大优势: 1、铁皮石斛:自唐宋以来,一直被列为皇室贡品,铁皮石斛生于海拔1600米的悬崖峭壁之上,繁殖力差,产量极低,所以古代仅供皇室、贵族享用 2、铁皮石斛自古民间…...

    2024/5/4 23:55:16
  23. 丽彦妆\医用面膜\冷敷贴轻奢医学护肤引导者

    原标题:丽彦妆\医用面膜\冷敷贴轻奢医学护肤引导者【公司简介】 广州华彬企业隶属香港华彬集团有限公司,专注美业21年,其旗下品牌: 「圣茵美」私密荷尔蒙抗衰,产后修复 「圣仪轩」私密荷尔蒙抗衰,产后修复 「花茵莳」私密荷尔蒙抗衰,产后修复 「丽彦妆」专注医学护…...

    2024/5/4 23:54:58
  24. 广州械字号面膜生产厂家OEM/ODM4项须知!

    原标题:广州械字号面膜生产厂家OEM/ODM4项须知!广州械字号面膜生产厂家OEM/ODM流程及注意事项解读: 械字号医用面膜,其实在我国并没有严格的定义,通常我们说的医美面膜指的应该是一种「医用敷料」,也就是说,医用面膜其实算作「医疗器械」的一种,又称「医用冷敷贴」。 …...

    2024/5/6 21:42:42
  25. 械字号医用眼膜缓解用眼过度到底有无作用?

    原标题:械字号医用眼膜缓解用眼过度到底有无作用?医用眼膜/械字号眼膜/医用冷敷眼贴 凝胶层为亲水高分子材料,含70%以上的水分。体表皮肤温度传导到本产品的凝胶层,热量被凝胶内水分子吸收,通过水分的蒸发带走大量的热量,可迅速地降低体表皮肤局部温度,减轻局部皮肤的灼…...

    2024/5/4 23:54:56
  26. 配置失败还原请勿关闭计算机,电脑开机屏幕上面显示,配置失败还原更改 请勿关闭计算机 开不了机 这个问题怎么办...

    解析如下&#xff1a;1、长按电脑电源键直至关机&#xff0c;然后再按一次电源健重启电脑&#xff0c;按F8健进入安全模式2、安全模式下进入Windows系统桌面后&#xff0c;按住“winR”打开运行窗口&#xff0c;输入“services.msc”打开服务设置3、在服务界面&#xff0c;选中…...

    2022/11/19 21:17:18
  27. 错误使用 reshape要执行 RESHAPE,请勿更改元素数目。

    %读入6幅图像&#xff08;每一幅图像的大小是564*564&#xff09; f1 imread(WashingtonDC_Band1_564.tif); subplot(3,2,1),imshow(f1); f2 imread(WashingtonDC_Band2_564.tif); subplot(3,2,2),imshow(f2); f3 imread(WashingtonDC_Band3_564.tif); subplot(3,2,3),imsho…...

    2022/11/19 21:17:16
  28. 配置 已完成 请勿关闭计算机,win7系统关机提示“配置Windows Update已完成30%请勿关闭计算机...

    win7系统关机提示“配置Windows Update已完成30%请勿关闭计算机”问题的解决方法在win7系统关机时如果有升级系统的或者其他需要会直接进入一个 等待界面&#xff0c;在等待界面中我们需要等待操作结束才能关机&#xff0c;虽然这比较麻烦&#xff0c;但是对系统进行配置和升级…...

    2022/11/19 21:17:15
  29. 台式电脑显示配置100%请勿关闭计算机,“准备配置windows 请勿关闭计算机”的解决方法...

    有不少用户在重装Win7系统或更新系统后会遇到“准备配置windows&#xff0c;请勿关闭计算机”的提示&#xff0c;要过很久才能进入系统&#xff0c;有的用户甚至几个小时也无法进入&#xff0c;下面就教大家这个问题的解决方法。第一种方法&#xff1a;我们首先在左下角的“开始…...

    2022/11/19 21:17:14
  30. win7 正在配置 请勿关闭计算机,怎么办Win7开机显示正在配置Windows Update请勿关机...

    置信有很多用户都跟小编一样遇到过这样的问题&#xff0c;电脑时发现开机屏幕显现“正在配置Windows Update&#xff0c;请勿关机”(如下图所示)&#xff0c;而且还需求等大约5分钟才干进入系统。这是怎样回事呢&#xff1f;一切都是正常操作的&#xff0c;为什么开时机呈现“正…...

    2022/11/19 21:17:13
  31. 准备配置windows 请勿关闭计算机 蓝屏,Win7开机总是出现提示“配置Windows请勿关机”...

    Win7系统开机启动时总是出现“配置Windows请勿关机”的提示&#xff0c;没过几秒后电脑自动重启&#xff0c;每次开机都这样无法进入系统&#xff0c;此时碰到这种现象的用户就可以使用以下5种方法解决问题。方法一&#xff1a;开机按下F8&#xff0c;在出现的Windows高级启动选…...

    2022/11/19 21:17:12
  32. 准备windows请勿关闭计算机要多久,windows10系统提示正在准备windows请勿关闭计算机怎么办...

    有不少windows10系统用户反映说碰到这样一个情况&#xff0c;就是电脑提示正在准备windows请勿关闭计算机&#xff0c;碰到这样的问题该怎么解决呢&#xff0c;现在小编就给大家分享一下windows10系统提示正在准备windows请勿关闭计算机的具体第一种方法&#xff1a;1、2、依次…...

    2022/11/19 21:17:11
  33. 配置 已完成 请勿关闭计算机,win7系统关机提示“配置Windows Update已完成30%请勿关闭计算机”的解决方法...

    今天和大家分享一下win7系统重装了Win7旗舰版系统后&#xff0c;每次关机的时候桌面上都会显示一个“配置Windows Update的界面&#xff0c;提示请勿关闭计算机”&#xff0c;每次停留好几分钟才能正常关机&#xff0c;导致什么情况引起的呢&#xff1f;出现配置Windows Update…...

    2022/11/19 21:17:10
  34. 电脑桌面一直是清理请关闭计算机,windows7一直卡在清理 请勿关闭计算机-win7清理请勿关机,win7配置更新35%不动...

    只能是等着&#xff0c;别无他法。说是卡着如果你看硬盘灯应该在读写。如果从 Win 10 无法正常回滚&#xff0c;只能是考虑备份数据后重装系统了。解决来方案一&#xff1a;管理员运行cmd&#xff1a;net stop WuAuServcd %windir%ren SoftwareDistribution SDoldnet start WuA…...

    2022/11/19 21:17:09
  35. 计算机配置更新不起,电脑提示“配置Windows Update请勿关闭计算机”怎么办?

    原标题&#xff1a;电脑提示“配置Windows Update请勿关闭计算机”怎么办&#xff1f;win7系统中在开机与关闭的时候总是显示“配置windows update请勿关闭计算机”相信有不少朋友都曾遇到过一次两次还能忍但经常遇到就叫人感到心烦了遇到这种问题怎么办呢&#xff1f;一般的方…...

    2022/11/19 21:17:08
  36. 计算机正在配置无法关机,关机提示 windows7 正在配置windows 请勿关闭计算机 ,然后等了一晚上也没有关掉。现在电脑无法正常关机...

    关机提示 windows7 正在配置windows 请勿关闭计算机 &#xff0c;然后等了一晚上也没有关掉。现在电脑无法正常关机以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容&#xff0c;让我们赶快一起来看一下吧&#xff01;关机提示 windows7 正在配…...

    2022/11/19 21:17:05
  37. 钉钉提示请勿通过开发者调试模式_钉钉请勿通过开发者调试模式是真的吗好不好用...

    钉钉请勿通过开发者调试模式是真的吗好不好用 更新时间:2020-04-20 22:24:19 浏览次数:729次 区域: 南阳 > 卧龙 列举网提醒您:为保障您的权益,请不要提前支付任何费用! 虚拟位置外设器!!轨迹模拟&虚拟位置外设神器 专业用于:钉钉,外勤365,红圈通,企业微信和…...

    2022/11/19 21:17:05
  38. 配置失败还原请勿关闭计算机怎么办,win7系统出现“配置windows update失败 还原更改 请勿关闭计算机”,长时间没反应,无法进入系统的解决方案...

    前几天班里有位学生电脑(windows 7系统)出问题了&#xff0c;具体表现是开机时一直停留在“配置windows update失败 还原更改 请勿关闭计算机”这个界面&#xff0c;长时间没反应&#xff0c;无法进入系统。这个问题原来帮其他同学也解决过&#xff0c;网上搜了不少资料&#x…...

    2022/11/19 21:17:04
  39. 一个电脑无法关闭计算机你应该怎么办,电脑显示“清理请勿关闭计算机”怎么办?...

    本文为你提供了3个有效解决电脑显示“清理请勿关闭计算机”问题的方法&#xff0c;并在最后教给你1种保护系统安全的好方法&#xff0c;一起来看看&#xff01;电脑出现“清理请勿关闭计算机”在Windows 7(SP1)和Windows Server 2008 R2 SP1中&#xff0c;添加了1个新功能在“磁…...

    2022/11/19 21:17:03
  40. 请勿关闭计算机还原更改要多久,电脑显示:配置windows更新失败,正在还原更改,请勿关闭计算机怎么办...

    许多用户在长期不使用电脑的时候&#xff0c;开启电脑发现电脑显示&#xff1a;配置windows更新失败&#xff0c;正在还原更改&#xff0c;请勿关闭计算机。。.这要怎么办呢&#xff1f;下面小编就带着大家一起看看吧&#xff01;如果能够正常进入系统&#xff0c;建议您暂时移…...

    2022/11/19 21:17:02
  41. 还原更改请勿关闭计算机 要多久,配置windows update失败 还原更改 请勿关闭计算机,电脑开机后一直显示以...

    配置windows update失败 还原更改 请勿关闭计算机&#xff0c;电脑开机后一直显示以以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容&#xff0c;让我们赶快一起来看一下吧&#xff01;配置windows update失败 还原更改 请勿关闭计算机&#x…...

    2022/11/19 21:17:01
  42. 电脑配置中请勿关闭计算机怎么办,准备配置windows请勿关闭计算机一直显示怎么办【图解】...

    不知道大家有没有遇到过这样的一个问题&#xff0c;就是我们的win7系统在关机的时候&#xff0c;总是喜欢显示“准备配置windows&#xff0c;请勿关机”这样的一个页面&#xff0c;没有什么大碍&#xff0c;但是如果一直等着的话就要两个小时甚至更久都关不了机&#xff0c;非常…...

    2022/11/19 21:17:00
  43. 正在准备配置请勿关闭计算机,正在准备配置windows请勿关闭计算机时间长了解决教程...

    当电脑出现正在准备配置windows请勿关闭计算机时&#xff0c;一般是您正对windows进行升级&#xff0c;但是这个要是长时间没有反应&#xff0c;我们不能再傻等下去了。可能是电脑出了别的问题了&#xff0c;来看看教程的说法。正在准备配置windows请勿关闭计算机时间长了方法一…...

    2022/11/19 21:16:59
  44. 配置失败还原请勿关闭计算机,配置Windows Update失败,还原更改请勿关闭计算机...

    我们使用电脑的过程中有时会遇到这种情况&#xff0c;当我们打开电脑之后&#xff0c;发现一直停留在一个界面&#xff1a;“配置Windows Update失败&#xff0c;还原更改请勿关闭计算机”&#xff0c;等了许久还是无法进入系统。如果我们遇到此类问题应该如何解决呢&#xff0…...

    2022/11/19 21:16:58
  45. 如何在iPhone上关闭“请勿打扰”

    Apple’s “Do Not Disturb While Driving” is a potentially lifesaving iPhone feature, but it doesn’t always turn on automatically at the appropriate time. For example, you might be a passenger in a moving car, but your iPhone may think you’re the one dri…...

    2022/11/19 21:16:57