关于使用Spark/Flink/Hive等工具进行数据分析的概念性问题:HDF可以在哪里？

发表时间：2022-07-06 00:07:30 阅读：108

当查看包含以下组件的架构时:

-应用程序向[kafka]发出事件(https://kafka.apache.org) -使用蜂箱存储事件原始数据 -使用火花(或阿帕奇·弗林克)使用kafka事件将事件写入配置单元 -使用超集显示数据的步骤

根据以下模式:

Application
  |
  | (publish events)
  ↓
Kafka 
  |
  | (consume topics)
  ↓
Spark (or Flink)
  |
  | (write events)
  ↓
Hive/HDFS
  ↑
  | (query)
  |
Superset

我们有spark(或flink)来阅读卡夫卡的主题.现在，如果我们想写入hive，这意味着我们要写入HFDS存储器.根据我从这篇[文章]中了解到的情况(https://spark.apache.org/docs/latest/sql-data-sources-hive-tables.html)尽管没有明确提及，但实际上它是写入到该节点上的本地文件系统中的.因此，HDFS文件最终会分发给spark workers.

但是，如果您有一个带有自己存储节点的专用蜂窝集群，该怎么办.你能让spark(或flink)写入这个专用集群(然后数据再次分布在节点上)而不是写入节点本身吗？

或者HDFS数据总是在spark(或flink)工作节点上的想法真的存在吗？如果这是预期的想法，那么您如何将事件原始数据归档(例如，仅用于归档目的)？

🎖️ 优质答案