Articles

Naučte SparkContext – Úvod a Funkcí

Zůstat aktualizován s nejnovější technologické trendy
Připojit DataFlair na Telegram!!

Objective

SparkContext je vstupní brána Apache Spark funkčnosti. Nejdůležitějším krokem každé aplikace Spark driver je generování SparkContext. Umožňuje vaší aplikaci Spark přístup k Spark clusteru pomocí Správce zdrojů (příze / Mesos). Chcete-li vytvořit SparkContext, měl by být vytvořen první SparkConf. SparkConf má konfigurační parametr, který naše aplikace Spark driver předá SparkContext.
v tomto tutoriálu Apache Spark hluboce pochopíme, co je SparkContext v Spark. Jak vytvořit třídu SparkContext v Spark pomocí programu SPARK-Scala word count. Naučíme se také různé úkoly SparkContext a jak zastavit SparkContext v Apache Spark.

takže, začněme sparkcontext tutorial.

Naučit SparkContext - Úvod a Funkce

Dozvědět se SparkContext – Úvod a Funkce,

Učit se, jak nainstalovat Apache Spark v samostatném režimu a Apache Spark instalace v multi-node clusteru.

co je SparkContext v Apache Spark?

SparkContext je vstupní bod funkce Spark. Nejdůležitějším krokem každé aplikace Spark driver je generování SparkContext. Umožňuje vaší aplikaci Spark přístup k Spark clusteru pomocí Správce zdrojů. Správce zdrojů může být jedním z těchto tří-Spark Standalone, YARN, Apache Mesos.

jak vytvořit třídu SparkContext?

Pokud chcete vytvořit SparkContext, měl by být vytvořen první SparkConf. SparkConf má konfigurační parametr, který naše aplikace Spark driver předá SparkContext. Některé z těchto parametrů definuje vlastnosti aplikace Spark driver. Zatímco některé jsou používány Spark přidělit prostředky na clusteru, jako je počet, velikost paměti a jader používaných exekutor běží na pracovních uzlů.
Stručně řečeno, vede, jak přistupovat k Spark clusteru. Po vytvoření objektu SparkContext můžeme vyvolat funkce jako textFile, sequenceFile, parallelize atd. Různé kontexty, ve kterých může běžet, jsou místní, příze-klient, Mesos URL a spark URL.
jakmile je SparkContext vytvořen, může být použit k vytvoření RDDs, broadcast variable a accumulator, ingress Spark service a spuštění úloh. Všechny tyto věci lze provést, dokud není SparkContext zastaven.

zastavení SparkContext

pouze jeden SparkContext může být aktivní na JVM. Musíte zastavit aktivní it před vytvořením nového, jak je uvedeno níže:
stop(): Jednotka
bude se zobrazovat následující zpráva:
INFO SparkContext: Úspěšně zastavil SparkContext

Jiskra Scala Word Count Příklad:

podívejme se, jak vytvořit SparkContext pomocí SparkConf s pomocí Spark-Scala word count příklad-

balíček com.dataflair.spark
import org.Apač.jiskra.SparkContext
import org.Apač.jiskra.SparkConf
object Wordcount {
def main (args: Array) {
/ / Create conf object
val conf = new SparkConf ()
.setAppName(„WordCount“)
//create spark context object
val sc = new SparkContext(conf)
//Check whether sufficient params are supplied
if (args.length < 2) {
println(„Usage: ScalaWordCount <input><output>“)
System.exit(1)
}
//Read file and create RDD
val rawData = sc.textFile(args(0))
//convert the lines into words using flatMap operation
val words = rawData.flatMap(line => line.rozdělit ( „“ ))
/ / počítat jednotlivá slova pomocí map a redukce
val wordCount = words.map (word => (word, 1)).reduceByKey (_ + _)
/ / Uložte výsledek
počet slov.saveAsTextFile(args (1))
/ / zastavte kontext jiskry
sc.zastavit
}
}

Funkce SparkContext v Apache Spark

10 Důležitých Funkcí SparkContext v Apache Spark

10 Důležitých Funkcí SparkContext v Apache Spark

. Chcete – li získat aktuální stav aplikace Spark

  • SpkEnv-jedná se o runtime prostředí s veřejnými službami Spark. Interaguje mezi sebou vytvořit distribuované výpočetní platformu pro aplikaci Spark. A SparkEnv objekt, který má požadované runtime služby pro běh Jiskra aplikace s různými prostředí pro řidiče a exekutor představuje Jiskra runtime prostředí.
  • SparkConf-Spark Properties zpracovává maximální nastavení aplikací a jsou konfigurovány samostatně pro každou aplikaci. Můžeme také snadno nastavit tyto vlastnosti na SparkConf. Některé běžné vlastnosti, jako je hlavní Adresa URL a název aplikace, stejně jako libovolný pár klíč-hodnota, nakonfigurovaný pomocí metody set ().
  • Deployment environment (as master URL) – prostředí Spark deployment environment je dvou typů, a to lokální a clusterové. Místní režim je nedistribuovaný režim nasazení jednoho JVM. Všechny komponenty provádění-driver, executor, LocalSchedulerBackend a master jsou přítomny ve stejném jediném JVM. Jediným režimem, kde jsou ovladače užitečné pro spuštění, je tedy místní režim. Pro účely testování, ladění nebo demonstrace je místní režim vhodný, protože ke spuštění aplikace spark nevyžaduje žádné dřívější nastavení. Zatímco v clusteru režimu, Spark běží v distribučním režimu. Naučte se Spark Cluster Manager podrobně.

ii. nastavení konfigurace

  • Hlavní URL-hlavní metoda vrátí zpět aktuální hodnotu spark.master, což je prostředí nasazení v provozu.
  • Místní vlastnosti-Vytváření Logických Pracovních Skupin – důvod, proč místní vlastnosti koncept je do logických skupin pracovních míst prostřednictvím vlastností, které vytvářejí samostatné práci zahájila z různých vláken patří do jedné logické skupiny. Můžeme nastavit místní vlastnost, která bude mít vliv na Spark úlohy odeslané z podprocesu, jako je například Spark fair scheduler pool.
  • výchozí úroveň protokolování-umožňuje nastavit úroveň přihlášení root v aplikaci Spark, například Spark Shell.

iii. Pro Přístup k různým službám

To také pomáhá v přístupu ke službám, jako TaskScheduler, LiveListenBus, BlockManager, SchedulerBackend, ShuffelManager a volitelné ContextCleaner.

iv. Chcete-li Zrušit úlohu

cancleJob jednoduše požádá dagscheduler k poklesu Spark úlohy.
podrobnosti o Spark DAG(Directed Acyclic Graph).

v. Chcete-li zrušit fázi

cancleStage jednoduše požádá DAGScheduler k poklesu Spark fázi.

vi. pro čištění uzávěru v Spark

Spark cleanups uzavření pokaždé, když dojde k akci, tj. tělo akce před tím, než je serializováno a odesláno přes drát k provedení. Čistá metoda v SparkContext to dělá. To zase volá ClosureClean.čistá metoda. To nejen čistí uzávěr, ale také odkazované uzavření je čisté přechodně. Předpokládá serializovatelné, dokud výslovně neodkazuje na neserializovatelné objekty.

vii. Registrovat Jiskra posluchač

můžeme zaregistrovat vlastní SparkListenerInterface s pomocí addSparkListener metoda. Můžeme také zaregistrovat vlastní posluchače pomocí spark.nastavení extraligy.

viii. Programovatelná dynamická alokace

poskytuje také následující metodu jako vývojářské API pro dynamickou alokaci exekutorů: requestExecutors, killExecutors, requestTotalExecutors, getExecutorIds.

ix. pro přístup k trvalému RDD

getPersistentRDDs dává sbírku RDD, které se označily jako trvalé prostřednictvím mezipaměti.

x. Na unpersist RDDs

Z magisterského Bloku Manager a interní persistentRdds mapování, unpersist odstraňuje RDD.

takže to bylo vše v tutoriálu Sparkcontext. Doufám, že se vám naše vysvětlení líbí.

Závěr

Proto, SparkContext poskytuje různé funkce v Jiskru jako získat aktuální stav Zapalovací Aplikace, nastavení konfigurace, zrušit práci, Zrušte jeviště a mnohem více. Jedná se o vstupní bod k funkčnosti Spark. Působí tedy jako páteř.
Pokud máte nějaký dotaz ohledně tohoto tutoriálu, neváhejte se s námi podělit. Rádi je vyřešíme.
Viz také –

  • způsoby, jak vytvořit RDD v Spark
  • Apache Spark kompatibilita s Hadoop