Articles

Learn SparkContext-Introduction and Functions

Stay updated with latest technology trends
Join DataFlair on Telegram!!

Objective

SparkContext on Apache Spark-toiminnallisuuden sisääntuloportti. Spark driver-sovelluksen tärkein vaihe on luoda SparkContext. Sen avulla Spark-sovellus voi käyttää Spark Clusteria Resurssienhallinnan (Lanka/Mesos) avulla. Jos haluat luoda Sparkcontekstin, ensin on tehtävä SparkConf. SparkConf: ssä on määritysparametri, jonka Spark-ajurisovelluksemme välittää SparkContext-sovellukseen.
tässä Apache Spark-tutoriaalissa ymmärrämme syvästi, mitä on SparkContext Sparkissa. Kuinka luoda SparkContext-Luokka Sparkissa Spark-Scala-sanalaskuohjelman avulla. Opimme myös erilaisia tehtäviä SparkContext ja miten lopettaa SparkContext Apache Spark.

niin, aloitetaan SparkContext-opetusohjelma.

Learn SparkContext - Introduction and Functions

Learn SparkContext – Introduction and Functions

Learn how to install Apache Spark standalone mode and Apache Spark installation in a multi-node cluster.

mikä on SparkContext Apache Sparkissa?

SparkContext on Kipinätoiminnon sisääntulopiste. Spark driver-sovelluksen tärkein vaihe on luoda SparkContext. Sen avulla Spark-sovellus voi käyttää Spark Clusteria Resurssienhallinnan avulla. Resource manager voi olla yksi näistä kolmen kipinän Standalone, Lanka, Apache Mesos.

Miten luodaan SparkContext-Luokka?

Jos haluat luoda Sparkcontekstin, ensin tulee tehdä SparkConf. SparkConf: ssä on määritysparametri, jonka Spark-ajurisovelluksemme välittää SparkContext-sovellukseen. Jotkin näistä parametreista määrittelevät Spark driver-sovelluksen ominaisuudet. Vaikka jotkut käyttävät Spark jakaa resursseja klusterin, kuten numero, muistin koko, ja ytimet käyttämä executor käynnissä työntekijän solmut.
lyhyesti se opastaa, miten Kipinärykelmään pääsee käsiksi. Luomisen jälkeen SparkContext objekti, voimme vedota toimintoja, kuten textFile, sequenceFile, parallelize jne. Eri yhteyksissä, joissa se voi ajaa ovat paikallinen, Lanka-asiakas, Mesos URL ja kipinä URL.
kun SparkContext on luotu, sitä voidaan käyttää luomaan RDDs, broadcast muuttuja, ja akku, ingress kipinä palvelu ja ajaa työpaikkoja. Kaikki nämä asiat voidaan suorittaa, kunnes SparkContext pysäytetään.

stoping SparkContext

vain yksi SparkContext voi olla aktiivinen JVM: ää kohti. Sinun täytyy pysäyttää aktiivinen it ennen uuden luomista kuten alla:
stop(): Yksikkö
se näyttää seuraavan viestin:
INFO SparkContext: onnistuneesti pysäytetty SparkContext

Spark Scala Word Count Example

katsotaan, miten luodaan Sparkconf: n avulla Spark-Scala word count example-

package com.dataflair.spark
import org.apassit.kipinä.SparkContext
import org.apassit.kipinä.SparkConf
object Wordcount {
def main (args: Array) {
//Create conf object
val conf = new SparkConf()
.setAppName(”WordCount”)
//create spark context object
val sc = new SparkContext(conf)
//Check whether sufficient params are supplied
if (args.length < 2) {
println(”Usage: ScalaWordCount <input><output>”)
System.exit(1)
}
//Read file and create RDD
val rawData = sc.textFile(args(0))
//convert the lines into words using flatMap operation
val words = rawData.flatMap(line => line.split(” ”))
//laske yksittäiset sanat käyttäen karttaa ja reduceByKey-operaatiota
val wordCount = sanoja.kartta (word => (word, 1)).reduceByKey (_ + _)
//Save the result
wordCount.saveAsTextFile(args (1))
//stop the spark context
sc.stop
}
}

Sparkcontekstin funktiot Apache Sparkissa

10 tärkeää Sparkcontekstin funktiota Apache Sparkissa

10 tärkeää Sparkcontekstin funktiota Apache Sparkissa

i. Spark Application

  • SpkEnv – se on ajettava ympäristö, jossa on Spark ’ s public services. Se on vuorovaikutuksessa keskenään perustaakseen hajautetun laskentaympäristön Spark-sovellukselle. Sparkenv-objekti, jossa on tarvittavat ajonaikapalvelut Spark-sovelluksen ajamiseen Kuljettajan ja toimeenpanijan eri ympäristöissä, edustaa Spark runtime-ympäristöä.
  • SparkConf – kipinän ominaisuudet käsittelevät sovellusten enimmäisasetuksia ja ne on määritetty erikseen kullekin sovellukselle. Voimme myös helposti asettaa nämä ominaisuudet SparkConf. Joitakin yleisiä ominaisuuksia, kuten pää-URL ja sovelluksen nimi, sekä mielivaltainen avainarvopari, joka on määritetty set ()-menetelmällä.
  • Deployment environment (as master URL) – Spark deployment environment are of two type, local and clustered. Paikallinen tila on jakamaton yhden JVM: n käyttöönottotila. Kaikki suorituskomponentit-kuljettaja, suorittaja, LocalSchedulerBackend ja master ovat läsnä samassa JVM: ssä. Näin ollen ainoa tila, jossa ajurit ovat hyödyllisiä suorituksen kannalta, on paikallinen tila. Testausta, virheenkorjausta tai esittelyä varten paikallinen tila sopii, koska kipinäsovelluksen käynnistäminen ei vaadi aikaisempaa asennusta. Vaikka clustered tilassa, kipinä toimii distributive tilassa. Opi Spark Cluster Manager yksityiskohtaisesti.

ii. konfiguraation asettamiseksi

  • Master URL – master-menetelmä palauttaa takaisin kipinän nykyisen arvon.master, joka on käyttöönotto ympäristö käytössä.
  • Local properties-Creating Logical Job Groups – Local properties-konseptin tarkoituksena on muodostaa loogisia työpaikkaryhmiä sellaisten ominaisuuksien avulla, jotka luovat eri säikeistä käynnistetyn erillisen työn kuuluvat yhteen logiikkaryhmään. Voimme asettaa paikallisen ominaisuuden, joka vaikuttaa langasta lähetettyihin Spark-töihin, kuten Spark fair scheduler-pooliin.
  • Oletuslokitaso – sen avulla voit asettaa pääkirjautumistason Spark-sovelluksessa, esimerkiksi Spark Shellissä.

iii. Voit käyttää erilaisia palveluja

se auttaa myös käyttää palveluja, kuten Taskcheduler, LiveListenBus, BlockManager, SchedulerBackend, ShuffelManager ja valinnainen ContextCleaner.

iv. peruuttaakseen työn

cancleJob pyytää dagscheduleria yksinkertaisesti pudottamaan Kipinätyön.
Opi Spark DAGISTA (Directed Acyclic Graph) yksityiskohtaisesti.

v.

canclestage pyytää yksinkertaisesti Dagscheduleria pudottamaan kipinä-vaiheen.

vi. Spark

Spark cleanupsin Sulkemispuhdistuksessa suljetaan joka kerta, kun toiminta tapahtuu, ts. ennen sitä tapahtuva toiminta sarjallistetaan ja lähetetään langalla teloitettavaksi. Puhdas menetelmä SparkContext tekee tämän. Tämä puolestaan kutsuu ClosureClean.puhdas menetelmä. Se ei vain puhdistaa sulkeminen, mutta myös viitattu sulkeminen on puhdas transitiivisesti. Se olettaa, että se on sarjamuotoinen, kunnes se ei nimenomaisesti viittaa lajittelemattomiin esineisiin.

vii. Spark-kuuntelijan rekisteröimiseksi

voimme rekisteröidä mukautetun Sparklistenerinterfacen addSparkListener-menetelmän avulla. Voimme myös rekisteröidä mukautettuja kuuntelijoita kipinän avulla.ekstralisteners asetus.

viii. Ohjelmoitava dynaaminen allokointi

se tarjoaa myös seuraavan menetelmän kehittäjärajapintana toimeenpanijoiden dynaamiselle allokoinnille: requestExecutors, killExecutors, requestTotalExecutors, getExecutorIds.

ix. pysyvään RDD: hen pääsemiseksi

getPersistentRDDs antaa kokoelman RDD: itä, jotka ovat merkinneet itsensä pysyviksi välimuistin kautta.

x. unpersist Rdds

Masterin Lohkohallinnasta ja sisäisestä persistentRdds-kartoituksesta unpersist poistaa RDD: n.

niin, tämä oli kaikki Sparkcontext opetusohjelma. Toivottavasti pidät selityksestämme.

johtopäätös

näin ollen SparkContext tarjoaa Sparkissa erilaisia toimintoja, kuten saada Spark-sovelluksen nykyinen tila, asettaa kokoonpanon, peruuttaa työn, peruuttaa vaiheen ja paljon muuta. Se on sisääntulopiste Kipinätoiminnolle. Näin se toimii selkärankana.
Jos sinulla on kysyttävää tästä opetusohjelmasta, niin voit vapaasti jakaa kanssamme. Ratkaisemme ne mielellämme.
See Also –

  • Ways To Create RDD in Spark
  • Apache Spark Compatibility with Hadoop