• banner_de_notícias

Serviço

Mecanismo de limpeza de dados do Spark Streaming
(I) DStream e RDD
Como sabemos, a computação do Spark Streaming é baseada no Spark Core, e o núcleo do Spark Core é o RDD, portanto, o Spark Streaming também deve estar relacionado ao RDD. No entanto, o Spark Streaming não permite que os usuários usem o RDD diretamente, mas abstrai um conjunto de conceitos do DStream. DStream e RDD são relacionamentos inclusivos, que podem ser entendidos como o padrão de decoração em Java, ou seja, o DStream é um aprimoramento do RDD, mas o comportamento é semelhante ao do RDD.
DStream e RDD têm várias condições.
(1) têm ações de transformação semelhantes, como map, reduceByKey, etc., mas também algumas exclusivas, como Window, mapWithStated, etc.
(2) todos têm ações de Ação, como foreachRDD, count, etc.
O modelo de programação é consistente.
(B) Introdução do DStream no Spark Streaming
O DStream contém várias classes.
(1) Classes de fonte de dados, como InputDStream, específicas como DirectKafkaInputStream, etc.
(2) Classes de conversão, normalmente MappedDStream, ShuffledDStream
(3) classes de saída, normalmente como ForEachDStream
Do exposto acima, os dados do início (entrada) ao fim (saída) são feitos pelo sistema DStream, o que significa que o usuário normalmente não pode gerar e manipular RDDs diretamente, o que significa que o DStream tem a oportunidade e a obrigação de ser responsável pelo ciclo de vida dos RDDs.
Em outras palavras, o Spark Streaming tem umalimpeza automáticafunção.
(iii) O processo de geração de RDD no Spark Streaming
O fluxo de vida dos RDDs no Spark Streaming é aproximadamente o seguinte.
(1) No InputDStream, os dados recebidos são transformados em RDD, como DirectKafkaInputStream, que gera KafkaRDD.
(2) então através do MappedDStream e outras conversões de dados, desta vez é diretamente chamado de RDD correspondente ao método de mapa para conversão
(3) Na operação da classe de saída, somente quando o RDD é exposto, você pode permitir que o usuário execute o armazenamento correspondente, outros cálculos e outras operações.