Articles

Lær Sparkkontekst-introduktion og funktioner

bliv opdateret med de nyeste teknologitendenser
Deltag i DataFlair på Telegram!!

mål

Sparkkontekst er indgangsporten til Apache Spark-funktionalitet. Det vigtigste trin i enhver Spark driver-applikation er at generere Sparkkontekst. Det giver din Spark-applikation adgang til Spark Cluster ved hjælp af Resource Manager (garn/Mesos). For at oprette Gnistkontekst skal der først laves SparkConf. SparkConf har en konfigurationsparameter, som vores Spark driver-applikation vil overføre til Sparkkontekst.
i denne Apache Spark tutorial vil vi dybt forstå, hvad der er Sparkkontekst i Spark. Sådan oprettes Sparkkontekstklasse i Spark ved hjælp af Spark-Scala ordoptællingsprogram. Vi lærer også forskellige opgaver med Gnistkontekst og hvordan man stopper Gnistkontekst i Apache Spark.

så lad os starte Sparkkontekst tutorial.

Lær Sparkkontekst - introduktion og funktioner

Lær Sparkkontekst – introduktion og funktioner

Lær at installere Apache Spark i standalone mode og Apache Spark installation i en multi-node klynge.

Hvad er Gnistkontekst i Apache Spark?

Sparkkontekst er indgangspunktet for Spark-funktionalitet. Det vigtigste trin i enhver Spark driver-applikation er at generere Sparkkontekst. Det giver din Spark-applikation adgang til Spark Cluster ved hjælp af Resource Manager. Resource manager kan være en af disse tre – Spark Standalone, garn, Apache Mesos.

Sådan oprettes Sparkkontekst klasse?

Hvis du vil oprette Gnistkontekst, skal der først laves SparkConf. SparkConf har en konfigurationsparameter, som vores Spark driver-applikation vil overføre til Sparkkontekst. Nogle af disse parametre definerer egenskaber ved Spark driver-applikation. Mens nogle bruges af Spark til at allokere ressourcer på klyngen, som nummer, hukommelsesstørrelse og kerner, der bruges af eksekutor, der kører på arbejdernoderne.
kort sagt, det guider, hvordan du får adgang til Gnistklyngen. Efter oprettelsen af et Gnistkontekstobjekt kan vi påkalde funktioner som tekstfil, sekvensfil, parallelisere osv. De forskellige sammenhænge, hvor det kan køre, er local, yarn-client, Mesos URL og Spark URL.
når Gnistkonteksten er oprettet, kan den bruges til at oprette RDDs, broadcast variabel og akkumulator, ingress Spark service og køre job. Alle disse ting kan udføres, indtil Sparkcontekst er stoppet.

standsning af Gnistkontekst

kun en Gnistkontekst må være aktiv pr.JVM. Du skal stoppe den aktive det, før du opretter en ny som nedenfor:
stop(): Enhed
det viser følgende meddelelse:
info Sparkkontekst: succesfuldt stoppet Sparkkontekst

Spark Scala Ordantal eksempel

lad os se, hvordan du opretter Sparkkontekst ved hjælp af SparkConf ved hjælp af Spark-Scala ordantal eksempel-

Pakke com.dataflair.spark
import org.apache.gnist.Gnistkontekst
import org.apache.gnist.SparkConf
objekt ordtælling {
def main(args: Array) {
//Opret conf objekt
val conf = ny SparkConf ()
.setAppName(“WordCount”)
//create spark context object
val sc = new SparkContext(conf)
//Check whether sufficient params are supplied
if (args.length < 2) {
println(“Usage: ScalaWordCount <input><output>”)
System.exit(1)
}
//Read file and create RDD
val rawData = sc.textFile(args(0))
//convert the lines into words using flatMap operation
val words = rawData.flatMap(line => line.split ( “” ))
//tæl de enkelte ord ved hjælp af kort og reduceByKey operation
val ordtælling = ord.kort (ord = > (ord, 1)).reduceByKey (_ + _)
//Gem resultatet
ordtælling.saveastekstfile (args (1))
//stop gnistkonteksten
sc.stop
}
}

funktioner af Gnistkontekst i Apache Spark

10 Vigtige funktioner af Gnistkontekst i Apache Spark

10 Vigtige funktioner af Gnistkontekst i Apache Spark

i. For at få den aktuelle status for Spark ansøgning

  • SpkEnv – det er en runtime miljø med Spark offentlige tjenester. Det interagerer med hinanden for at etablere en distribueret computerplatform til Spark-applikation. Et SparkEnv-objekt, der indeholder de nødvendige runtime-tjenester til at køre Spark-applikation med det forskellige miljø for føreren og eksekutoren, repræsenterer Spark runtime-miljøet.SparkConf-Spark Properties håndterer maksimale applikationsindstillinger og konfigureres separat for hver applikation. Vi kan også nemt indstille disse egenskaber på en SparkConf. Nogle almindelige egenskaber som master URL og programnavn samt et vilkårligt nøgleværdipar, konfigureret via set ()-metoden.
  • Deployment environment (som master URL) – Spark deployment environment er af to typer, nemlig lokalt og grupperet. Lokal tilstand er ikke-distribueret single-JVM deployment mode. Alle udførelse komponenter-driver, eksekutor, LocalSchedulerBackend, og master er til stede i samme enkelt JVM. Derfor er den eneste tilstand, hvor drivere er nyttige til udførelse, den lokale tilstand. Til test -, debugging-eller demonstrationsformål er den lokale tilstand egnet, fordi den ikke kræver nogen tidligere opsætning for at starte spark-applikationen. I grupperet tilstand kører gnisten i distributiv tilstand. Lær Spark Cluster Manager i detaljer.

ii. for at indstille konfigurationen

  • Master URL – mastermetoden returnerer den aktuelle værdi af spark.master, som er implementeringsmiljø i brug.
  • lokale egenskaber-oprettelse af logiske jobgrupper-grunden til lokale egenskabskoncept er at danne logiske grupper af job ved hjælp af egenskaber, der skaber det separate job, der er lanceret fra forskellige tråde, tilhører en enkelt logikgruppe. Vi kan indstille en lokal ejendom, der vil påvirke Gnistjob indsendt fra en tråd, såsom Spark fair scheduler pool.
  • standard logning niveau – det lader dig indstille roden login niveau i en gnist program, for eksempel Spark Shell.

iii. For at få adgang til forskellige tjenester

hjælper det også med at få adgang til tjenester som TaskScheduler, LiveListenBus, BlockManager, SchedulerBackend, ShuffelManager og den valgfri Kontekstcleaner.

iv. for at annullere et job

cancleJob blot anmoder DAGScheduler at droppe en gnist job.
Lær om Spark DAG (rettet acyklisk graf) i detaljer.

v. For at annullere en fase

cancleStage blot anmoder DAGScheduler at droppe en gnist fase.

vi. til lukning rengøring i Spark

Spark oprydning lukningen hver gang en handling opstår, dvs. handlingskroppen, før den serialiseres og sendes over ledningen for at udføre. Den rene metode i Sparkkontekst gør dette. Dette kalder igen Lukningren.ren metode. Det renser ikke kun lukningen, men også refereret lukning er ren transitivt. Det antager serialiserbart, indtil det ikke eksplicit henviser til ikke-serialiserbare objekter.

vii. for at registrere Spark listener

kan vi registrere en brugerdefineret SparkListenerInterface ved hjælp af addSparkListener-metoden. Vi kan også registrere brugerdefinerede lyttere ved hjælp af spark.ekstralisteners indstilling.

viii. Programmerbar dynamisk allokering

det giver også følgende metode som udvikler API til dynamisk allokering af eksekutorer: anmodningeksekutorer, killekutorer, anmodningstotalekutorer, geteksekutorider.

for at få adgang til vedvarende RDD

getPersistentRDDs giver samlingen af RDD ‘ er, der har markeret sig som vedvarende via cache.

h.for at unpersist RDDs

fra master ‘ s Block Manager og den interne persistentRdds-kortlægning fjerner unpersist RDD.

så det hele var i Sparkkontekst Tutorial. Håber du kan lide vores forklaring.

konklusion

Derfor giver Sparkkontekst de forskellige funktioner i Spark som at få den aktuelle status for Spark-applikationen, indstille konfigurationen, annullere et job, annullere et trin og meget mere. Det er et indgangspunkt til Spark-funktionaliteten. Således virker det en rygrad.
Hvis du har spørgsmål om denne tutorial, så er du velkommen til at dele med os. Vi vil være glade for at løse dem.
Se også-

  • måder at oprette RDD i Spark
  • Apache Spark kompatibilitet med Hadoop