Articles

Ismerje SparkContext-Bevezetés és funkciók

Legyen naprakész a legújabb technológiai trendek
Csatlakozz DataFlair a távirat!!

Objective

a SparkContext az Apache Spark funkcionalitás belépési kapuja. A Spark illesztőprogram-alkalmazások legfontosabb lépése a SparkContext létrehozása. Ez lehetővé teszi a Spark alkalmazás számára a Spark Cluster elérését a Resource Manager (YARN/Mesos) segítségével. A SparkContext létrehozásához először SparkConf-ot kell készíteni. A SparkConf rendelkezik egy konfigurációs paraméterrel, amelyet a Spark illesztőprogramunk átad a SparkContext-nek.
ebben az Apache Spark oktatóanyagban mélyen megértjük, mi a SparkContext a Spark-ban. Hogyan hozzunk létre SparkContext osztály Spark segítségével Spark-Scala word count programot. A SparkContext különböző feladatait is megtanuljuk, és hogyan állítsuk le a SparkContext-et az Apache Spark-ban.

Tehát kezdjük SparkContext bemutató.

Ismerje meg a SparkContext - bevezetést és funkciókat

Ismerje meg a SparkContext – bevezetést és funkciókat

Ismerje meg, hogyan telepítheti az Apache Spark-ot önálló módban és hogyan telepítheti az Apache Spark telepítését több csomópontos fürtben.

mi az a SparkContext az Apache Spark – ban?

a SparkContext a Spark funkcionalitás belépési pontja. A Spark illesztőprogram-alkalmazások legfontosabb lépése a SparkContext létrehozása. Ez lehetővé teszi a Spark alkalmazás számára, hogy az erőforrás-kezelő segítségével hozzáférjen a Spark klaszterhez. Az erőforrás-kezelő lehet az egyik ilyen három – Spark önálló, fonal, Apache Mesos.

Hogyan hozzunk létre SparkContext osztályt?

Ha sparkcontext-et szeretne létrehozni, először SparkConf-ot kell készíteni. A SparkConf rendelkezik egy konfigurációs paraméterrel, amelyet a Spark illesztőprogramunk átad a SparkContext-nek. Ezen paraméterek egy része meghatározza a Spark driver alkalmazás tulajdonságait. Míg néhányat a Spark használ a fürt erőforrásainak lefoglalására, például a számot, a memória méretét és a dolgozó csomópontokon futó végrehajtó által használt magokat.
röviden, ez irányítja, hogyan lehet elérni a Spark klaszter. A SparkContext objektum létrehozása után olyan funkciókat hívhatunk meg, mint a textFile, a sequenceFile, a parallelize stb. A különböző kontextusok, amelyekben futtatható, a helyi, a fonal-kliens, a Mesos URL és a Spark URL.
a SparkContext létrehozása után használható RDD-k, broadcast változó és akkumulátor, ingress Spark szolgáltatás és feladatok futtatására. Mindezeket a dolgokat addig lehet végrehajtani, amíg a SparkContext le nem áll.

A SparkContext leállítása

JVM-enként csak egy SparkContext lehet aktív. Meg kell állítani az aktív azt létrehozása előtt egy újat az alábbiak szerint:
stop(): Egység
a következő üzenet jelenik meg:
INFO SparkContext: sikeresen leállította a SparkContext

Spark Scala Word Count Example

lássuk, hogyan lehet létrehozni SparkContext segítségével SparkConf segítségével Spark-Scala word count example-

package com.dataflair.spark
import org.apacs.szikra.SparkContext
import org.apacs.szikra.SparkConf
objektum Wordcount {
def main (args: Array) {
//Conf objektum létrehozása
val conf = új SparkConf ()
.setAppName(“WordCount”)
//create spark context object
val sc = new SparkContext(conf)
//Check whether sufficient params are supplied
if (args.length < 2) {
println(“Usage: ScalaWordCount <input><output>”)
System.exit(1)
}
//Read file and create RDD
val rawData = sc.textFile(args(0))
//convert the lines into words using flatMap operation
val words = rawData.flatMap(line => line.split ( “” ))
//számolja meg az egyes szavakat a map and reduceByKey művelettel
val wordCount = szavak.térkép (word = > (szó, 1)).reduceByKey (_ + _)
//az eredmény mentése
wordCount.saveAsTextFile(args (1))
//állítsa le a Spark kontextust
sc.stop
}
}

A SparkContext funkciói az Apache Sparkban

10 a SparkContext fontos funkciói az Apache Sparkban

10 a SparkContext fontos funkciói az Apache Sparkban

i. Ahhoz, hogy az aktuális állapotát Spark alkalmazás

  • SpkEnv – ez egy futásidejű környezetben Spark közszolgáltatások. Ez kölcsönhatásba lép egymással, hogy hozzon létre egy elosztott számítási platform Spark alkalmazás. A sparkenv objektum, amely a Spark alkalmazás futtatásához szükséges futásidejű szolgáltatásokat tartalmazza az Illesztőprogram és a végrehajtó különböző környezetével, a Spark futásidejű környezetet képviseli.
  • SparkConf-a Spark tulajdonságok kezelik az alkalmazások maximális beállításait, és minden alkalmazáshoz külön vannak konfigurálva. Azt is könnyen meg ezeket a tulajdonságokat egy SparkConf. Néhány általános tulajdonság, például a mester URL és az alkalmazás neve, valamint egy tetszőleges kulcs-érték pár, amelyet a set() metódus konfigurál.
  • telepítési környezet (fő URL-ként) – a Spark telepítési környezet két típusa van: helyi és fürtözött. A helyi mód nem elosztott egy JVM telepítési mód. Az összes végrehajtási összetevő-driver, executor, LocalSchedulerBackend és master-ugyanabban az egyetlen JVM-ben van jelen. Ezért az egyetlen mód, ahol az illesztőprogramok hasznosak a végrehajtáshoz, a helyi mód. Teszteléshez, hibakereséshez vagy demonstrációs célhoz a helyi mód alkalmas, mert a spark alkalmazás elindításához nincs szükség korábbi beállításokra. Fürtözött módban a Spark disztributív módban fut. Ismerje meg részletesen a Spark Cluster Manager alkalmazást.

ii. a konfiguráció beállítása

  • Master URL – a master metódus visszaadja a spark aktuális értékét.mester, amely a használatban lévő telepítési környezet.
  • Local properties-Creating Logical Job Groups-A local properties koncepció célja, hogy logikai jobcsoportokat hozzon létre olyan tulajdonságok segítségével, amelyek létrehozzák a különböző szálakból indított különálló jobot, amelyek egyetlen logikai csoporthoz tartoznak. Beállíthatunk egy helyi tulajdonságot, amely befolyásolja a szálból beküldött Spark feladatokat, például a Spark fair ütemező készletet.
  • alapértelmezett naplózási szint – lehetővé teszi a gyökér bejelentkezési szint beállítását egy Spark alkalmazásban, például a Spark Shell-ben.

iii. Különböző szolgáltatások eléréséhez

segít a TaskScheduler, LiveListenBus, BlockManager, SchedulerBackend, ShuffelManager és az opcionális ContextCleaner szolgáltatások elérésében is.

iv. hogy megszünteti a munkát

cancleJob egyszerűen kéri DAGScheduler dobni egy Spark munkát.
Tudjon meg többet a Spark DAG-ról (irányított aciklikus grafikon) részletesen.

v. egy szakasz törlése

a cancleStage egyszerűen kéri a DAGScheduler-t, hogy dobjon el egy szikra fokozatot.

vi. A lezárás tisztításához a Sparkban

A Spark minden alkalommal megtisztítja a lezárást, amikor valamilyen művelet történik, pl. a művelet teste, mielőtt sorosítják és elküldik a huzalon, hogy végrehajtsa. A sparkcontext tiszta módszere ezt teszi. Ez viszont szoros hívástiszta.tiszta módszer. Ez nem csak tisztítja a lezárás, hanem hivatkozott lezárás tiszta tranzitív. Addig feltételezi, hogy sorosítható, amíg nem hivatkozik kifejezetten nem sorosítható objektumokra.

vii. A Spark listener regisztrálásához

egyéni SparkListenerInterface-t regisztrálhatunk az addSparkListener módszer segítségével. A spark segítségével egyéni hallgatókat is regisztrálhatunk.extraListeners beállítás.

viii. Programozható dinamikus allokáció

a következő módszert is biztosítja fejlesztői API-ként a végrehajtók dinamikus allokációjához: requestExecutors, killExecutors, requestTotalExecutors, getExecutorIds.

ix. az állandó RDD eléréséhez

a getPersistentRDDs megadja azoknak az RDD-knek a gyűjteményét, amelyek a gyorsítótáron keresztül állandónak jelölték magukat.

x. az RDDs

feloldásához a mester Blokkkezelőjéből és a belső persistentRdds leképezésből az unpersist eltávolítja az RDD-t.

szóval, ez volt minden Sparkcontext bemutató. Remélem tetszik a magyarázatunk.

következtetés

ezért a SparkContext biztosítja a Spark különböző funkcióit, mint például a Spark alkalmazás aktuális állapotának lekérése, a konfiguráció beállítása, egy feladat törlése, egy szakasz törlése és még sok más. Ez egy belépési pont a Spark funkcióhoz. Így működik a gerincét.
Ha bármilyen kérdése van a bemutató, így nyugodtan ossza meg velünk. Mi lesz boldog, hogy megoldja őket.
Lásd még: –

  • az RDD létrehozásának módjai a Spark-ban
  • Apache Spark kompatibilitás a Hadoop-Tal