当查看包含以下组件的架构时:
-应用程序向[kafka]发出事件(https://kafka.apache.org) -使用蜂箱存储事件原始数据 -使用火花(或阿帕奇·弗林克)使用kafka事件将事件写入配置单元 -使用超集显示数据的步骤
根据以下模式:
Application
|
| (publish events)
↓
Kafka
|
| (consume topics)
↓
Spark (or Flink)
|
| (write events)
↓
Hive/HDFS
↑
| (query)
|
Superset
我们有spark(或flink)来阅读卡夫卡的主题.现在,如果我们想写入hive,这意味着我们要写入HFDS存储器.根据我从这篇[文章]中了解到的情况(https://spark.apache.org/docs/latest/sql-data-sources-hive-tables.html)尽管没有明确提及,但实际上它是写入到该节点上的本地文件系统中的.因此,HDFS文件最终会分发给spark workers.
但是,如果您有一个带有自己存储节点的专用蜂窝集群,该怎么办.你能让spark(或flink)写入这个专用集群(然后数据再次分布在节点上)而不是写入节点本身吗?
或者HDFS数据总是在spark(或flink)工作节点上的想法真的存在吗?如果这是预期的想法,那么您如何将事件原始数据归档(例如,仅用于归档目的)?