• news_banner

Serviço

Mecanismo de limpeza de dados do Spark Streaming
(E) DStream e RDD
Como sabemos, a computação do Spark Streaming é baseada no Spark Core, e o núcleo do Spark Core é RDD, portanto, o Spark Streaming também deve estar relacionado ao RDD.Porém, Spark Streaming não permite que os usuários usem RDD diretamente, mas abstrai um conjunto de conceitos de DStream, DStream e RDD são relacionamentos inclusivos, você pode entendê-lo como o padrão de decoração em Java, ou seja, DStream é um aprimoramento do RDD, mas o comportamento é semelhante ao RDD.
DStream e RDD têm várias condições.
(1) possuem ações de transformação semelhantes, como map, reduzByKey, etc., mas também algumas exclusivas, como Window, mapWithStated, etc.
(2) todos possuem ações de ação, como foreachRDD, contagem, etc.
O modelo de programação é consistente.
(B) Introdução do DStream no Spark Streaming
DStream contém várias classes.
(1) Classes de fontes de dados, como InputDStream, específicas como DirectKafkaInputStream, etc.
(2) Classes de conversão, normalmente MappedDStream, ShuffledDStream
(3) classes de saída, normalmente como ForEachDStream
Pelo exposto, os dados do início (entrada) ao final (saída) são feitos pelo sistema DStream, o que significa que o usuário normalmente não pode gerar e manipular RDDs diretamente, o que significa que o DStream tem a oportunidade e a obrigação de ser responsável pelo ciclo de vida dos RDDs.
Em outras palavras, Spark Streaming tem umlimpeza automáticafunção.
(iii) O processo de geração de RDD no Spark Streaming
O fluxo de vida dos RDDs no Spark Streaming é difícil como segue.
(1) No InputDStream, os dados recebidos são transformados em RDD, como DirectKafkaInputStream, que gera KafkaRDD.
(2) então, por meio de MappedDStream e outras conversões de dados, desta vez é chamado diretamente de RDD correspondente ao método de mapa para conversão
(3) Na operação da classe de saída, somente quando o RDD é exposto, você pode permitir que o usuário execute o armazenamento correspondente, outros cálculos e outras operações.