• fréttaborði

Þjónusta

Gögnhreinsunarkerfi fyrir Spark Streaming
(I) DStream og RDD
Eins og við vitum byggir útreikningur Spark Streaming á Spark Core og kjarninn í Spark Core er RDD, þannig að Spark Streaming verður einnig að tengjast RDD. Hins vegar leyfir Spark Streaming ekki notendum að nota RDD beint, heldur dregur það saman safn af DStream hugtökum. DStream og RDD eru innifalin tengsl, þú getur skilið það sem skreytingarmynstur í Java, það er að segja, DStream er viðbót við RDD, en hegðunin er svipuð og í RDD.
Bæði DStream og RDD hafa nokkur skilyrði.
(1) hafa svipaðar umbreytingaraðgerðir, eins og map, reduceByKey, o.s.frv., en einnig nokkrar einstakar, eins og Window, mapWithStated, o.s.frv.
(2) allar hafa aðgerðaraðgerðir, eins og foreachRDD, count, o.s.frv.
Forritunarlíkanið er samræmt.
(B) Kynning á DStream í Spark Streaming
DStream inniheldur nokkra flokka.
(1) Gagnalindaflokkar, eins og InputDStream, sértækir eins og DirectKafkaInputStream, o.s.frv.
(2) Umbreytingarflokkar, yfirleitt MappedDStream, ShuffledDStream
(3) úttaksflokkar, yfirleitt eins og ForEachDStream
Samkvæmt ofangreindu eru gögnin frá upphafi (inntak) til enda (úttak) unnin af DStream kerfinu, sem þýðir að notandinn getur venjulega ekki búið til og meðhöndlað RDD-diska beint, sem þýðir að DStream hefur tækifæri og skyldu til að bera ábyrgð á líftíma RDD-diska.
Með öðrum orðum, Spark Streaming hefursjálfvirk hreinsunvirkni.
(iii) Ferlið við RDD-myndun í Spark Streaming
Lífsflæði RDD í Spark Streaming er gróft sem hér segir.
(1) Í InputDStream eru móttekin gögn umbreytt í RDD, eins og DirectKafkaInputStream, sem býr til KafkaRDD.
(2) síðan, með MappedDStream og annarri gagnaumbreytingu, er þessi tími kallaður beint RDD, sem samsvarar kortlagningaraðferðinni fyrir umbreytingu.
(3) Í úttaksflokksaðgerðinni, aðeins þegar RDD er afhjúpað, geturðu látið notandann framkvæma samsvarandi geymslu, aðrar útreikningar og aðrar aðgerðir.