大数据常见面试问题汇总

Hadoop核心组件与运行机制
Hadoop作为大数据生态的基石，面试中常被问及HDFS（分布式文件系统）和YARN（资源调度框架）的协作原理。例如，HDFS通过NameNode管理元数据、DataNode存储数据块，实现高容错性；YARN则通过ResourceManager和NodeManager动态分配资源，支持MapReduce、Spark等计算框架。
典型问题：HDFS写入数据时，如何保证数据可靠性和一致性？
解答：HDFS采用多副本机制（默认3副本），数据写入时需同步到多个DataNode，并通过ACK机制确认写入成功。若写入过程中某个节点失败，NameNode会触发副本重建，确保数据不丢失。
Spark与MapReduce的对比
Spark因内存计算和DAG（有向无环图）执行引擎，在迭代计算和实时处理场景中优势显著。面试中常需对比两者在性能、API丰富度、容错机制上的差异。
典型问题：Spark如何优化Shuffle阶段的性能？
解答：Spark通过以下方式优化Shuffle：

Lambda与Kappa架构的适用场景
Lambda架构结合批处理（Batch Layer）和流处理（Speed Layer），适用于需要强一致性的离线+实时混合场景；Kappa架构则基于纯流处理，通过重放日志实现批处理，适合数据更新频率低的场景。
典型问题：如何选择Lambda与Kappa架构？
解答：

数据仓库分层设计
常见分层包括ODS（原始数据层）、DWD（明细数据层）、DWS（汇总数据层）、ADS（应用数据层）。面试中常需解释分层目的及优化策略。
典型问题：DWS层如何设计以支持高效查询？
解答：DWS层需通过预聚合（如按时间、地区维度汇总）减少ADS层查询压力。例如，使用Hive的GROUP BY和SUM聚合用户行为数据，存储为列式存储格式（如Parquet），并结合物化视图（Materialized View）加速查询。

SQL查询优化技巧
在Hive、Spark SQL等引擎中，SQL性能优化是核心考点。常见问题包括分区裁剪、索引使用、Join策略选择等。
典型问题：如何优化Hive中的大表Join操作？
解答：

分区裁剪：在Join条件中添加分区字段过滤，减少数据扫描量。
Join策略选择：小表Join大表时，使用mapjoin（通过hive.auto.convert.join=true启用），将小表加载到内存中避免Shuffle。
数据倾斜处理：对倾斜Key单独处理，例如使用skew join或拆分Key。

资源调优参数配置
Spark和Hadoop的性能受资源参数影响显著。面试中常需解释关键参数的作用及调优方法。
典型问题：如何配置Spark的Executor内存以避免OOM？
解答：Spark Executor内存分为堆内存（Heap）和堆外内存（Off-Heap）。需合理设置以下参数：

数据脱敏与加密技术
在金融、医疗等敏感数据场景中，数据安全是面试重点。常见问题包括脱敏算法选择、加密方案实施等。
典型问题：如何实现HDFS中的数据透明加密？
解答：HDFS透明加密通过Hadoop Key Management Server（KMS）管理密钥，结合CryptoCodec对文件块加密。步骤如下：

访问控制与审计
大数据平台需通过RBAC（基于角色的访问控制）和审计日志实现安全管控。
典型问题：如何通过Ranger实现Hive细粒度权限控制？
解答：Ranger通过Policy管理权限，例如：

通过系统掌握上述问题，开发者可全面提升大数据面试竞争力，从容应对技术挑战。