Articles

Lær SparkContext-Introduksjon og Funksjoner

Hold deg oppdatert med nyeste teknologi trender
Bli Med DataFlair På Telegram!!

Mål

SparkContext er inngangsporten Til Apache Spark-funksjonalitet. Det viktigste trinnet i Enhver Spark driver programmet er å generere SparkContext. Det gjør At Spark-Programmet for å få tilgang Til Spark Cluster ved Hjelp Av Resource Manager (YARN/Mesos). For å opprette SparkContext, bør Første SparkConf gjøres. SparkConf har en konfigurasjonsparameter som Vår Spark driver-applikasjon vil passere Til SparkContext.
I Denne Apache Spark opplæringen, vil vi dypt forstå hva Som Er SparkContext I Spark. Hvordan lage SparkContext Klasse I Spark ved Hjelp Av Spark-Scala word count program. Vi vil også lære Ulike oppgaver Av SparkContext og hvordan du stopper SparkContext I Apache Spark.

Så, la oss starte SparkContext tutorial.

Lær SparkContext - Introduksjon og Funksjoner

Lær SparkContext – Introduksjon og Funksjoner

Lær Hvordan du installerer Apache Spark i frittstående modus og Apache Spark-installasjon i en multi-node-klynge.

Hva Er SparkContext I Apache Spark?

SparkContext er inngangspunktet For Spark-funksjonalitet. Det viktigste trinnet i Enhver Spark driver programmet er å generere SparkContext. Det gjør At Spark-Programmet for å få tilgang Til Spark Cluster ved Hjelp Av Resource Manager. Resource manager kan være en av disse Tre-Gnist Frittstående, GARN, Apache Mesos.

Hvordan Lage SparkContext Klasse?

hvis du vil opprette SparkContext, bør Første SparkConf gjøres. SparkConf har en konfigurasjonsparameter som Vår Spark driver-applikasjon vil passere Til SparkContext. Noen av disse parameterne definerer egenskapene Til Spark driver-programmet. Mens Noen Brukes Av Spark til å tildele ressurser på klyngen, som tall, minnestørrelse og kjerner som brukes av eksekutor som kjører på arbeidernodene.
Kort sagt, den guider hvordan du får tilgang Til Spark cluster. Etter opprettelsen Av Et SparkContext-objekt kan vi påkalle funksjoner som tekstfil, sequenceFile, parallelize etc. De ulike sammenhenger der den kan kjøre er lokal, garn-klient, Mesos URL og Spark URL.Når SparkContext er opprettet, kan den brukes til å lage RDDs, broadcast variabel og akkumulator, ingress Spark service og kjøre jobber. Alle disse tingene kan utføres til SparkContext er stoppet.

Stoppe SparkContext

Bare En SparkContext kan være aktiv per JVM. Du må stoppe den aktive den før du oppretter en ny som nedenfor:
stopp(): SparkContext: vellykket stoppet SparkContext

Spark Scala Word Count Eksempel

La Oss se hvordan du lager SparkContext ved Hjelp Av SparkConf ved Hjelp Av Spark-Scala word count eksempel –

package com.dataflair.spark
importer org.apache.gnist.SparkContext
importer org.apache.gnist.SparkConf
objekt Wordcount {
def main (args: Array) {
//Opprett conf-objekt
val conf = Ny SparkConf ()
.setAppName(«WordCount»)
//create spark context object
val sc = new SparkContext(conf)
//Check whether sufficient params are supplied
if (args.length < 2) {
println(«Usage: ScalaWordCount <input><output>»)
System.exit(1)
}
//Read file and create RDD
val rawData = sc.textFile(args(0))
//convert the lines into words using flatMap operation
val words = rawData.flatMap(line => line.split ( » «))
//tell de enkelte ordene ved hjelp av kart og reduceByKey operasjon
val wordCount = ord.kart (word = > (word, 1)).reduceByKey (_ + _)
/ / Lagre resultatet
wordCount.saveAsTextFile(args (1))
//stopp gnistkonteksten
sc.stopp
}
}

Funksjoner Av SparkContext I Apache Spark

10 Viktige Funksjoner Av SparkContext I Apache Spark

10 Viktige Funksjoner Av SparkContext I Apache Spark

i. For å få gjeldende Status For Spark Søknad

  • SpkEnv – Det Er en runtime miljø Med Spark offentlige tjenester. Den samhandler med hverandre for å etablere en distribuert dataplattform for Spark-Applikasjon. Et SparkEnv-objekt som inneholder de nødvendige kjøretidstjenestene for å kjøre Spark-programmet med det forskjellige miljøet for driveren og eksekutoren, representerer Spark runtime-miljøet.SparkConf-Spark Properties håndterer maksimale applikasjonsinnstillinger og konfigureres separat for hvert program. Vi kan ogsa enkelt sette disse egenskapene pa En SparkConf. Noen vanlige egenskaper som hovedadresse og programnavn, samt et vilkårlig nøkkelverdipar, konfigurert via set () – metoden.
  • Deployment environment (som master URL) – Spark deployment environment er av to typer nemlig lokale og gruppert. Lokal modus er ikke-distribuert single-JVM distribusjon modus. Alle gjennomføring komponenter-driver, byrder, LocalSchedulerBackend, og master er til stede i samme enkelt JVM. Derfor er den eneste modusen der drivere er nyttige for utførelse, lokal modus. For testing, feilsøking eller demonstrasjonsformål er lokal modus egnet fordi det ikke krever tidligere oppsett for å starte spark-programmet. Mens I gruppert modus kjører Gnisten i distribusjonsmodus. Lær Spark Cluster Manager i detalj.

ii. for å angi konfigurasjonen

  • Master URL – master metoden returnerer den nåværende verdien av spark.master som er distribusjonsmiljø i bruk.
  • Lokale egenskaper-Opprette Logiske Jobbgrupper-grunnen til lokale egenskaper konseptet er å danne logiske grupper av jobber ved hjelp av egenskaper som skaper egen jobb lansert fra ulike tråder tilhører en enkelt logikkgruppe. Vi kan angi en lokal egenskap som vil påvirke Spark-jobber som sendes inn fra en tråd, for eksempel Spark fair scheduler-utvalget.
  • Standard Logging nivå-den lar deg sette root login nivå I En Gnist program, for eksempel Spark Shell.

iii. For å Få tilgang til ulike tjenester

det hjelper også i å få tilgang til tjenester som TaskScheduler, LiveListenBus, BlockManager, SchedulerBackend, ShuffelManager og valgfri ContextCleaner.

iv. Å Avbryte en jobb

cancleJob ber Bare DAGScheduler å slippe En Gnist jobb.
Lær om Spark DAG(Directed Acyclic Graph) i detalj.

v. For Å Avbryte et stadium

ber cancleStage Bare DAGScheduler om å slippe Et Gniststadium.

vi. For Closing cleaning I Spark

Spark cleanups lukkingen hver Gang En Handling oppstår, dvs. kroppen Av Handlingen før det er serialisert og sendt over ledningen for å utføre. Den rene metoden I SparkContext gjør dette. Dette kaller Igjen Lukkingenren.ren metode. Det renser ikke bare lukkingen, men også referert lukking er ren transitivt. Den antar serialiserbar til den ikke eksplisitt refererer til userialiserbare objekter.

vii. For Å Registrere Spark listener

kan vi registrere Et tilpasset SparkListenerInterface ved hjelp av addSparkListener-metoden. Vi kan også registrere tilpassede lyttere ved hjelp av spark.extraListeners innstilling.

viii. Programmerbar Dynamisk tildeling

det gir også følgende metode som utvikler API for dynamisk tildeling av eksekutorer: requestExecutors, killExecutors, requestTotalExecutors, getExecutorIds.

ix. for å få tilgang til vedvarende RDD

getPersistentRDDs gir samlingen Av RDDs som har merket seg som vedvarende via cache.

x. hvis Du vil fjerne RDDs

fra masterblokkbehandleren og den interne persistentRdds-tilordningen, fjerner unpersisten RDD-EN.

Så, dette var alt I Sparkcontext Tutorial. Håper du liker vår forklaring.

Konklusjon

Derfor Gir SparkContext de ulike funksjonene I Spark som å få gjeldende Status For Spark-Programmet, angi konfigurasjonen, avbryte en jobb, Avbryte et stadium og mye mer. Det er et inngangspunkt Til Spark-funksjonaliteten. Dermed virker det en ryggrad.
hvis du har spørsmål om denne opplæringen, så gjerne Dele med oss. Vi vil gjerne løse dem.
Se Også-

  • Måter Å Lage RDD I Spark
  • Apache Spark Kompatibilitet med Hadoop