Articles

Learn SparkContext-Introduction and Functions

Stay updated with latest technology trends
Join DataFlair on Telegram!!

objetivo

SparkContext é a porta de entrada da funcionalidade Apache Spark. O passo mais importante de qualquer aplicação Spark driver é gerar SparkContext. Ele permite que sua aplicação Spark para acessar Spark Cluster com a ajuda do Gestor de recursos (fios/mesa). Para criar SparkContext, primeiro SparkConf deve ser feito. A SparkConf tem um parâmetro de configuração que a nossa aplicação Spark driver passará para a SparkContext.neste tutorial Apache Spark, vamos entender profundamente o que é SparkContext em Spark. Como criar Classe SparkContext em Spark com a ajuda do Programa de contagem de palavras Spark-Scala. Também aprenderemos várias tarefas do SparkContext e como parar o SparkContext no Apache Spark.então, vamos começar o tutorial SparkContext.

Learn SparkContext - Introduction and Functions

Learn SparkContext – Introduction and Functions

Learn how to install Apache Spark in standalone mode and Apache Spark installation in a multi-node cluster.o que é o SparkContext na Spark Apache?

SparkContext é o ponto de entrada da funcionalidade Spark. O passo mais importante de qualquer aplicação Spark driver é gerar SparkContext. Ele permite que sua aplicação Spark para acessar Spark Cluster com a ajuda do Gestor de recursos. O resource manager pode ser um desses três-Spark Standalone, YARN, Apache mesa.como criar Classe SparkContext?

Se você quiser criar SparkContext, primeiro SparkConf deve ser feito. A SparkConf tem um parâmetro de configuração que a nossa aplicação Spark driver passará para a SparkContext. Alguns destes parâmetros definem propriedades da aplicação Spark driver. Enquanto alguns são usados pela Spark para alocar recursos no cluster, como o número, tamanho da memória, e núcleos usados pelo executor executor executando nos nós do trabalhador.em resumo, ele guia como acessar o aglomerado de faíscas. Após a criação de um objeto SparkContext, podemos invocar funções como textFile, sequenceFile, parallelize etc. Os diferentes contextos em que pode ser executado São locais, fio-cliente, Mesa URL e Spark URL.uma vez que o SparkContext é criado, ele pode ser usado para criar RDDs, broadcast variable, e Acumulador, serviço de entrada Spark e executar empregos. Todas estas coisas podem ser realizadas até que o SparkContext seja parado.

parar o SparkContext

apenas um SparkContext pode estar activo por JVM. Você deve parar o active it antes de criar um novo como abaixo:
stop(): Unit
It will display the following message:
INFO SparkContext: Successfully stopped SparkContext

Spark Scala Word Count Example

Let’s see how to create SparkContext using SparkConf with the help of Spark-Scala word count example-

package com.dataflair.spark
import org.Apache.faisca.SparkContext
import org.Apache.faisca.SparkConf
object Wordcount {
def main(args: Array) {
/Create conf object
val conf = new SparkConf ()
.setAppName(“WordCount”)
//create spark context object
val sc = new SparkContext(conf)
//Check whether sufficient params are supplied
if (args.length < 2) {
println(“Usage: ScalaWordCount <input><output>”)
System.exit(1)
}
//Read file and create RDD
val rawData = sc.textFile(args(0))
//convert the lines into words using flatMap operation
val words = rawData.flatMap(line => line.split ( “” )
/ / count the individual words using map and reduceByKey operation
Val wordCount = words.map (word => (word, 1)).reduceByKey (_ + _)
/ / Save the result
wordCount.saveAsTextFile(args (1))
//stop the spark context
sc.stop
}
}

Funções de SparkContext no Apache Faísca

10 Funções Importantes do SparkContext no Apache Faísca

10 Funções Importantes do SparkContext no Apache Faísca

eu. Para obter o estado atual da aplicação Spark

  • SpkEnv-é um ambiente de execução com os Serviços Públicos da Spark. Ele interage um com o outro para estabelecer uma plataforma de computação distribuída para a aplicação Spark. Um objeto SparkEnv que detém os Serviços de tempo de execução necessários para executar a aplicação Spark com o ambiente diferente para o driver e executor representa o ambiente de tempo de execução Spark.SparkConf-as propriedades de Sparkconf lidam com as configurações de aplicações máximas e são configuradas separadamente para cada aplicação. Também podemos facilmente definir estas propriedades em uma SparkConf. Algumas propriedades comuns como URL mestre e nome da aplicação, bem como um par de valores-chave arbitrário, configurado através do método set ().ambiente de implantação (como URL principal) – ambiente de implantação de faíscas são de dois tipos, nomeadamente local e agrupado. O modo Local é o modo de implantação de uma única JVM não distribuída. Todos os componentes de execução-driver, executor, LocalSchedulerBackend e master estão presentes na mesma JVM única. Assim, o único modo onde os drivers são úteis para a execução é o modo local. Para fins de teste, depuração ou demonstração, o modo local é adequado porque não requer nenhuma configuração anterior para lançar a aplicação spark. Enquanto em Modo de agrupamento, a faísca funciona em modo distributivo. Aprenda o Gestor de aglomerado de faíscas em detalhe.

II. para definir a configuração

  • URL principal – o método principal devolve o valor actual da faísca.mestre que é o ambiente de implantação em uso.
  • propriedades locais-criação de grupos de trabalho lógicos-a razão do conceito de propriedades locais é formar grupos lógicos de empregos por meio de propriedades que criam o trabalho separado lançado a partir de diferentes threads pertencem a um único grupo lógico. Podemos definir uma propriedade local que irá afetar postos de trabalho Spark submetidos a partir de um fio, como o Spark fair scheduler pool.
  • nível de Registo predefinido-permite-lhe definir o nível de autenticação raiz numa aplicação de faísca, por exemplo, Spark Shell.

III. Para aceder a vários serviços

também ajuda a aceder a serviços como o TaskScheduler, LiveListenBus, BlockManager, SchedulerBackend, ShuffelManager e o Contextocleaner opcional.

IV. para cancelar um trabalho

cancellewob simplesmente pede DAGScheduler para abandonar um trabalho de faísca.
Learn about Spark DAG (Directed Acyclic Graph) in detail.

v. Para cancelar uma fase

cancleStage simplesmente pede DAGScheduler para deixar cair uma fase de faísca.

vi. para limpeza do fecho em faíscas O fecho sempre que ocorre uma acção, i.e. o corpo de ação antes de ser serializado e enviado sobre o fio para executar. O método limpo no SparkContext faz isso. Isto, por sua vez, chama ClosureClean.método limpo. Ele não só limpa o fechamento, mas também o fechamento referenciado é limpo transitivamente. Ele assume serializável até que não faça referência explícita a objetos irreserializáveis.

VII. para registar o operador Spark listener

podemos registar um SparkListenerInterface personalizado com a ajuda do método addSparkListener. Também podemos registar ouvintes personalizados usando a faísca.extralistenores a postos.

VIII. Alocação dinâmica programável

ele também fornece o seguinte método como a API de desenvolvimento para alocação dinâmica de executores: requisitexecutores, killexecutores, requisitotalexecutores, getexecutores.

IX. para aceder a RDD persistente

getPersistentRDDs dá a colecção de RDDs que se marcaram como persistentes via cache.

X. Para RDDs unpersist

do Gestor de blocos do mestre e do mapeamento interno dos persistentRdds, o unpersist remove o RDD.

so, this was all in Sparkcontext Tutorial. Espero que gostes da nossa explicação.

conclusão

portanto, o SparkContext fornece as várias funções no Spark como obter o estado atual da aplicação Spark, definir a configuração, cancelar um trabalho, cancelar um estágio e muito mais. É um ponto de entrada para a funcionalidade Spark. Assim, ele age como uma espinha dorsal.
Se você tem alguma dúvida sobre este tutorial, então sinta-se livre para compartilhar conosco. Teremos todo o gosto em resolvê-los.
See Also-

  • Ways To Create RDD in Spark
  • Apache Spark Compatibility with Hadoop