• frétta_borði

Þjónusta

Spark Streaming gagnahreinsunarbúnaður
(I) DSream og RDD
Eins og við vitum er Spark Streaming útreikningur byggður á Spark Core og kjarninn í Spark Core er RDD, svo Spark Streaming verður líka að tengjast RDD.Hins vegar, Spark Streaming leyfir notendum ekki að nota RDD beint, heldur útdrættir safn af DStream hugtökum, DStream og RDD eru sambönd án aðgreiningar, þú getur skilið það sem skreytingarmynstrið í Java, það er, DStream er aukning á RDD, en hegðunin er svipuð og RDD.
DStream og RDD hafa bæði nokkur skilyrði.
(1) hafa svipaðar umbreytingaraðgerðir, svo sem kort, reduceByKey, osfrv., en einnig nokkrar einstakar, eins og Window, mapWithStated, osfrv.
(2) allir hafa aðgerðaaðgerðir, svo sem foreachRDD, talningu osfrv.
Forritunarlíkanið er í samræmi.
(B) Kynning á DSream í Spark Streaming
DStream inniheldur nokkra flokka.
(1) Gagnagjafaflokkar, eins og InputDStream, sérstakur eins og DirectKafkaInputStream, o.s.frv.
(2) Umbreytingarflokkar, venjulega MappedDStream, ShuffledDStream
(3) úttaksflokkar, venjulega eins og ForEachDStream
Frá ofangreindu eru gögnin frá upphafi (inntak) til enda (úttak) unnin af DStream kerfinu, sem þýðir að notandinn getur venjulega ekki beint búið til og meðhöndlað RDD, sem þýðir að DSstream hefur tækifæri og skyldu til að vera ábyrgur fyrir lífsferli RDD.
Með öðrum orðum, Spark Streaming hefursjálfvirk hreinsunvirka.
(iii) Ferlið við RDD kynslóð í Spark Streaming
Lífsflæði RDD í Spark Streaming er gróft sem hér segir.
(1) Í InputDStream er mótteknum gögnum umbreytt í RDD, eins og DirectKafkaInputStream, sem býr til KafkaRDD.
(2) síðan í gegnum MappedDStream og önnur gagnabreyting, er þessi tími beint kallaður RDD sem samsvarar kortaaðferðinni fyrir umbreytingu
(3) Í framleiðsluflokksaðgerðinni, aðeins þegar RDD er afhjúpað, geturðu látið notandann framkvæma samsvarandi geymslu, aðra útreikninga og aðrar aðgerðir.