Ismerje SparkContext-Bevezetés és funkciók
Legyen naprakész a legújabb technológiai trendek
Csatlakozz DataFlair a távirat!!
- Objective
- mi az a SparkContext az Apache Spark – ban?
- Hogyan hozzunk létre SparkContext osztályt?
- A SparkContext leállítása
- Spark Scala Word Count Example
- A SparkContext funkciói az Apache Sparkban
- i. Ahhoz, hogy az aktuális állapotát Spark alkalmazás
- ii. a konfiguráció beállítása
- iii. Különböző szolgáltatások eléréséhez
- iv. hogy megszünteti a munkát
- v. egy szakasz törlése
- vi. A lezárás tisztításához a Sparkban
- vii. A Spark listener regisztrálásához
- viii. Programozható dinamikus allokáció
- ix. az állandó RDD eléréséhez
- x. az RDDs
- következtetés
Objective
a SparkContext az Apache Spark funkcionalitás belépési kapuja. A Spark illesztőprogram-alkalmazások legfontosabb lépése a SparkContext létrehozása. Ez lehetővé teszi a Spark alkalmazás számára a Spark Cluster elérését a Resource Manager (YARN/Mesos) segítségével. A SparkContext létrehozásához először SparkConf-ot kell készíteni. A SparkConf rendelkezik egy konfigurációs paraméterrel, amelyet a Spark illesztőprogramunk átad a SparkContext-nek.
ebben az Apache Spark oktatóanyagban mélyen megértjük, mi a SparkContext a Spark-ban. Hogyan hozzunk létre SparkContext osztály Spark segítségével Spark-Scala word count programot. A SparkContext különböző feladatait is megtanuljuk, és hogyan állítsuk le a SparkContext-et az Apache Spark-ban.
Tehát kezdjük SparkContext bemutató.
Ismerje meg a SparkContext – bevezetést és funkciókat
Ismerje meg, hogyan telepítheti az Apache Spark-ot önálló módban és hogyan telepítheti az Apache Spark telepítését több csomópontos fürtben.
mi az a SparkContext az Apache Spark – ban?
a SparkContext a Spark funkcionalitás belépési pontja. A Spark illesztőprogram-alkalmazások legfontosabb lépése a SparkContext létrehozása. Ez lehetővé teszi a Spark alkalmazás számára, hogy az erőforrás-kezelő segítségével hozzáférjen a Spark klaszterhez. Az erőforrás-kezelő lehet az egyik ilyen három – Spark önálló, fonal, Apache Mesos.
Hogyan hozzunk létre SparkContext osztályt?
Ha sparkcontext-et szeretne létrehozni, először SparkConf-ot kell készíteni. A SparkConf rendelkezik egy konfigurációs paraméterrel, amelyet a Spark illesztőprogramunk átad a SparkContext-nek. Ezen paraméterek egy része meghatározza a Spark driver alkalmazás tulajdonságait. Míg néhányat a Spark használ a fürt erőforrásainak lefoglalására, például a számot, a memória méretét és a dolgozó csomópontokon futó végrehajtó által használt magokat.
röviden, ez irányítja, hogyan lehet elérni a Spark klaszter. A SparkContext objektum létrehozása után olyan funkciókat hívhatunk meg, mint a textFile, a sequenceFile, a parallelize stb. A különböző kontextusok, amelyekben futtatható, a helyi, a fonal-kliens, a Mesos URL és a Spark URL.
a SparkContext létrehozása után használható RDD-k, broadcast változó és akkumulátor, ingress Spark szolgáltatás és feladatok futtatására. Mindezeket a dolgokat addig lehet végrehajtani, amíg a SparkContext le nem áll.
A SparkContext leállítása
JVM-enként csak egy SparkContext lehet aktív. Meg kell állítani az aktív azt létrehozása előtt egy újat az alábbiak szerint:
stop(): Egység
a következő üzenet jelenik meg:
INFO SparkContext: sikeresen leállította a SparkContext
Spark Scala Word Count Example
lássuk, hogyan lehet létrehozni SparkContext segítségével SparkConf segítségével Spark-Scala word count example-
package com.dataflair.spark
import org.apacs.szikra.SparkContext
import org.apacs.szikra.SparkConf
objektum Wordcount {
def main (args: Array) {
//Conf objektum létrehozása
val conf = új SparkConf ()
.setAppName(“WordCount”)
//create spark context object
val sc = new SparkContext(conf)
//Check whether sufficient params are supplied
if (args.length < 2) {
println(“Usage: ScalaWordCount <input><output>”)
System.exit(1)
}
//Read file and create RDD
val rawData = sc.textFile(args(0))
//convert the lines into words using flatMap operation
val words = rawData.flatMap(line => line.split ( “” ))
//számolja meg az egyes szavakat a map and reduceByKey művelettel
val wordCount = szavak.térkép (word = > (szó, 1)).reduceByKey (_ + _)
//az eredmény mentése
wordCount.saveAsTextFile(args (1))
//állítsa le a Spark kontextust
sc.stop
}
}
A SparkContext funkciói az Apache Sparkban
10 a SparkContext fontos funkciói az Apache Sparkban
i. Ahhoz, hogy az aktuális állapotát Spark alkalmazás
- SpkEnv – ez egy futásidejű környezetben Spark közszolgáltatások. Ez kölcsönhatásba lép egymással, hogy hozzon létre egy elosztott számítási platform Spark alkalmazás. A sparkenv objektum, amely a Spark alkalmazás futtatásához szükséges futásidejű szolgáltatásokat tartalmazza az Illesztőprogram és a végrehajtó különböző környezetével, a Spark futásidejű környezetet képviseli.
- SparkConf-a Spark tulajdonságok kezelik az alkalmazások maximális beállításait, és minden alkalmazáshoz külön vannak konfigurálva. Azt is könnyen meg ezeket a tulajdonságokat egy SparkConf. Néhány általános tulajdonság, például a mester URL és az alkalmazás neve, valamint egy tetszőleges kulcs-érték pár, amelyet a set() metódus konfigurál.
- telepítési környezet (fő URL-ként) – a Spark telepítési környezet két típusa van: helyi és fürtözött. A helyi mód nem elosztott egy JVM telepítési mód. Az összes végrehajtási összetevő-driver, executor, LocalSchedulerBackend és master-ugyanabban az egyetlen JVM-ben van jelen. Ezért az egyetlen mód, ahol az illesztőprogramok hasznosak a végrehajtáshoz, a helyi mód. Teszteléshez, hibakereséshez vagy demonstrációs célhoz a helyi mód alkalmas, mert a spark alkalmazás elindításához nincs szükség korábbi beállításokra. Fürtözött módban a Spark disztributív módban fut. Ismerje meg részletesen a Spark Cluster Manager alkalmazást.
ii. a konfiguráció beállítása
- Master URL – a master metódus visszaadja a spark aktuális értékét.mester, amely a használatban lévő telepítési környezet.
- Local properties-Creating Logical Job Groups-A local properties koncepció célja, hogy logikai jobcsoportokat hozzon létre olyan tulajdonságok segítségével, amelyek létrehozzák a különböző szálakból indított különálló jobot, amelyek egyetlen logikai csoporthoz tartoznak. Beállíthatunk egy helyi tulajdonságot, amely befolyásolja a szálból beküldött Spark feladatokat, például a Spark fair ütemező készletet.
- alapértelmezett naplózási szint – lehetővé teszi a gyökér bejelentkezési szint beállítását egy Spark alkalmazásban, például a Spark Shell-ben.
iii. Különböző szolgáltatások eléréséhez
segít a TaskScheduler, LiveListenBus, BlockManager, SchedulerBackend, ShuffelManager és az opcionális ContextCleaner szolgáltatások elérésében is.
iv. hogy megszünteti a munkát
cancleJob egyszerűen kéri DAGScheduler dobni egy Spark munkát.
Tudjon meg többet a Spark DAG-ról (irányított aciklikus grafikon) részletesen.
v. egy szakasz törlése
a cancleStage egyszerűen kéri a DAGScheduler-t, hogy dobjon el egy szikra fokozatot.
vi. A lezárás tisztításához a Sparkban
A Spark minden alkalommal megtisztítja a lezárást, amikor valamilyen művelet történik, pl. a művelet teste, mielőtt sorosítják és elküldik a huzalon, hogy végrehajtsa. A sparkcontext tiszta módszere ezt teszi. Ez viszont szoros hívástiszta.tiszta módszer. Ez nem csak tisztítja a lezárás, hanem hivatkozott lezárás tiszta tranzitív. Addig feltételezi, hogy sorosítható, amíg nem hivatkozik kifejezetten nem sorosítható objektumokra.
vii. A Spark listener regisztrálásához
egyéni SparkListenerInterface-t regisztrálhatunk az addSparkListener módszer segítségével. A spark segítségével egyéni hallgatókat is regisztrálhatunk.extraListeners beállítás.
viii. Programozható dinamikus allokáció
a következő módszert is biztosítja fejlesztői API-ként a végrehajtók dinamikus allokációjához: requestExecutors, killExecutors, requestTotalExecutors, getExecutorIds.
ix. az állandó RDD eléréséhez
a getPersistentRDDs megadja azoknak az RDD-knek a gyűjteményét, amelyek a gyorsítótáron keresztül állandónak jelölték magukat.
x. az RDDs
feloldásához a mester Blokkkezelőjéből és a belső persistentRdds leképezésből az unpersist eltávolítja az RDD-t.
szóval, ez volt minden Sparkcontext bemutató. Remélem tetszik a magyarázatunk.
következtetés
ezért a SparkContext biztosítja a Spark különböző funkcióit, mint például a Spark alkalmazás aktuális állapotának lekérése, a konfiguráció beállítása, egy feladat törlése, egy szakasz törlése és még sok más. Ez egy belépési pont a Spark funkcióhoz. Így működik a gerincét.
Ha bármilyen kérdése van a bemutató, így nyugodtan ossza meg velünk. Mi lesz boldog, hogy megoldja őket.
Lásd még: –
- az RDD létrehozásának módjai a Spark-ban
- Apache Spark kompatibilitás a Hadoop-Tal