Learn SparkContext-Introduction and Functions
Stay updated with latest technology trends
Join DataFlair on Telegram!!
- objetivo
- parar o SparkContext
- Spark Scala Word Count Example
- Funções de SparkContext no Apache Faísca
- eu. Para obter o estado atual da aplicação Spark
- II. para definir a configuração
- III. Para aceder a vários serviços
- IV. para cancelar um trabalho
- v. Para cancelar uma fase
- vi. para limpeza do fecho em faíscas O fecho sempre que ocorre uma acção, i.e. o corpo de ação antes de ser serializado e enviado sobre o fio para executar. O método limpo no SparkContext faz isso. Isto, por sua vez, chama ClosureClean.método limpo. Ele não só limpa o fechamento, mas também o fechamento referenciado é limpo transitivamente. Ele assume serializável até que não faça referência explícita a objetos irreserializáveis. VII. para registar o operador Spark listener
- VIII. Alocação dinâmica programável
- IX. para aceder a RDD persistente
- X. Para RDDs unpersist
- conclusão
objetivo
SparkContext é a porta de entrada da funcionalidade Apache Spark. O passo mais importante de qualquer aplicação Spark driver é gerar SparkContext. Ele permite que sua aplicação Spark para acessar Spark Cluster com a ajuda do Gestor de recursos (fios/mesa). Para criar SparkContext, primeiro SparkConf deve ser feito. A SparkConf tem um parâmetro de configuração que a nossa aplicação Spark driver passará para a SparkContext.neste tutorial Apache Spark, vamos entender profundamente o que é SparkContext em Spark. Como criar Classe SparkContext em Spark com a ajuda do Programa de contagem de palavras Spark-Scala. Também aprenderemos várias tarefas do SparkContext e como parar o SparkContext no Apache Spark.então, vamos começar o tutorial SparkContext.
Learn SparkContext – Introduction and Functions
Learn how to install Apache Spark in standalone mode and Apache Spark installation in a multi-node cluster.o que é o SparkContext na Spark Apache?
SparkContext é o ponto de entrada da funcionalidade Spark. O passo mais importante de qualquer aplicação Spark driver é gerar SparkContext. Ele permite que sua aplicação Spark para acessar Spark Cluster com a ajuda do Gestor de recursos. O resource manager pode ser um desses três-Spark Standalone, YARN, Apache mesa.como criar Classe SparkContext?
Se você quiser criar SparkContext, primeiro SparkConf deve ser feito. A SparkConf tem um parâmetro de configuração que a nossa aplicação Spark driver passará para a SparkContext. Alguns destes parâmetros definem propriedades da aplicação Spark driver. Enquanto alguns são usados pela Spark para alocar recursos no cluster, como o número, tamanho da memória, e núcleos usados pelo executor executor executando nos nós do trabalhador.em resumo, ele guia como acessar o aglomerado de faíscas. Após a criação de um objeto SparkContext, podemos invocar funções como textFile, sequenceFile, parallelize etc. Os diferentes contextos em que pode ser executado São locais, fio-cliente, Mesa URL e Spark URL.uma vez que o SparkContext é criado, ele pode ser usado para criar RDDs, broadcast variable, e Acumulador, serviço de entrada Spark e executar empregos. Todas estas coisas podem ser realizadas até que o SparkContext seja parado.
parar o SparkContext
apenas um SparkContext pode estar activo por JVM. Você deve parar o active it antes de criar um novo como abaixo:
stop(): Unit
It will display the following message:
INFO SparkContext: Successfully stopped SparkContext
Spark Scala Word Count Example
Let’s see how to create SparkContext using SparkConf with the help of Spark-Scala word count example-
package com.dataflair.spark
import org.Apache.faisca.SparkContext
import org.Apache.faisca.SparkConf
object Wordcount {
def main(args: Array) {
/Create conf object
val conf = new SparkConf ()
.setAppName(“WordCount”)
//create spark context object
val sc = new SparkContext(conf)
//Check whether sufficient params are supplied
if (args.length < 2) {
println(“Usage: ScalaWordCount <input><output>”)
System.exit(1)
}
//Read file and create RDD
val rawData = sc.textFile(args(0))
//convert the lines into words using flatMap operation
val words = rawData.flatMap(line => line.split ( “” )
/ / count the individual words using map and reduceByKey operation
Val wordCount = words.map (word => (word, 1)).reduceByKey (_ + _)
/ / Save the result
wordCount.saveAsTextFile(args (1))
//stop the spark context
sc.stop
}
}
Funções de SparkContext no Apache Faísca
10 Funções Importantes do SparkContext no Apache Faísca
eu. Para obter o estado atual da aplicação Spark
- SpkEnv-é um ambiente de execução com os Serviços Públicos da Spark. Ele interage um com o outro para estabelecer uma plataforma de computação distribuída para a aplicação Spark. Um objeto SparkEnv que detém os Serviços de tempo de execução necessários para executar a aplicação Spark com o ambiente diferente para o driver e executor representa o ambiente de tempo de execução Spark.SparkConf-as propriedades de Sparkconf lidam com as configurações de aplicações máximas e são configuradas separadamente para cada aplicação. Também podemos facilmente definir estas propriedades em uma SparkConf. Algumas propriedades comuns como URL mestre e nome da aplicação, bem como um par de valores-chave arbitrário, configurado através do método set ().ambiente de implantação (como URL principal) – ambiente de implantação de faíscas são de dois tipos, nomeadamente local e agrupado. O modo Local é o modo de implantação de uma única JVM não distribuída. Todos os componentes de execução-driver, executor, LocalSchedulerBackend e master estão presentes na mesma JVM única. Assim, o único modo onde os drivers são úteis para a execução é o modo local. Para fins de teste, depuração ou demonstração, o modo local é adequado porque não requer nenhuma configuração anterior para lançar a aplicação spark. Enquanto em Modo de agrupamento, a faísca funciona em modo distributivo. Aprenda o Gestor de aglomerado de faíscas em detalhe.
II. para definir a configuração
- URL principal – o método principal devolve o valor actual da faísca.mestre que é o ambiente de implantação em uso.
- propriedades locais-criação de grupos de trabalho lógicos-a razão do conceito de propriedades locais é formar grupos lógicos de empregos por meio de propriedades que criam o trabalho separado lançado a partir de diferentes threads pertencem a um único grupo lógico. Podemos definir uma propriedade local que irá afetar postos de trabalho Spark submetidos a partir de um fio, como o Spark fair scheduler pool.
- nível de Registo predefinido-permite-lhe definir o nível de autenticação raiz numa aplicação de faísca, por exemplo, Spark Shell.
III. Para aceder a vários serviços
também ajuda a aceder a serviços como o TaskScheduler, LiveListenBus, BlockManager, SchedulerBackend, ShuffelManager e o Contextocleaner opcional.
IV. para cancelar um trabalho
cancellewob simplesmente pede DAGScheduler para abandonar um trabalho de faísca.
Learn about Spark DAG (Directed Acyclic Graph) in detail.
v. Para cancelar uma fase
cancleStage simplesmente pede DAGScheduler para deixar cair uma fase de faísca.
vi. para limpeza do fecho em faíscas O fecho sempre que ocorre uma acção, i.e. o corpo de ação antes de ser serializado e enviado sobre o fio para executar. O método limpo no SparkContext faz isso. Isto, por sua vez, chama ClosureClean.método limpo. Ele não só limpa o fechamento, mas também o fechamento referenciado é limpo transitivamente. Ele assume serializável até que não faça referência explícita a objetos irreserializáveis.
VII. para registar o operador Spark listener
podemos registar um SparkListenerInterface personalizado com a ajuda do método addSparkListener. Também podemos registar ouvintes personalizados usando a faísca.extralistenores a postos.
VIII. Alocação dinâmica programável
ele também fornece o seguinte método como a API de desenvolvimento para alocação dinâmica de executores: requisitexecutores, killexecutores, requisitotalexecutores, getexecutores.
IX. para aceder a RDD persistente
getPersistentRDDs dá a colecção de RDDs que se marcaram como persistentes via cache.
X. Para RDDs unpersist
do Gestor de blocos do mestre e do mapeamento interno dos persistentRdds, o unpersist remove o RDD.
so, this was all in Sparkcontext Tutorial. Espero que gostes da nossa explicação.
conclusão
portanto, o SparkContext fornece as várias funções no Spark como obter o estado atual da aplicação Spark, definir a configuração, cancelar um trabalho, cancelar um estágio e muito mais. É um ponto de entrada para a funcionalidade Spark. Assim, ele age como uma espinha dorsal.
Se você tem alguma dúvida sobre este tutorial, então sinta-se livre para compartilhar conosco. Teremos todo o gosto em resolvê-los.
See Also-
- Ways To Create RDD in Spark
Apache Spark Compatibility with Hadoop