黑马大数据学习笔记2-HDFS环境部署 黑马大数据学习笔记2-HDFS环境部署 数栈君 发表于 2023-10-25 14:39 370 0 环境部署hadoop-3.3.4.tar.gzHadoop HDFS的角色包含:NameNode,主节点管理者DataNode,从节点工作者SecondaryNameNode,主节点辅助节点CPU 内存 服务node1 1核心
黑马程序员:技术笔记大数据面试题之spark相关(二)昨天分享了大数据面试题之spark相关一,看到有很大的反响,今天就分享接下来的二,希望能更好的帮助到大家!11.简单说一下hadoop和spark的shuffle相同和差异?答:1)从 high-level 的角度来看,两者并没有大的差别。 都是将 mapper(Spark 里是ShuffleMapTask)的...
今天不学技术了,今天说一下最近一段时间对大数据的几种岗位的观察。希望通过这篇文章能让大家知道自己想去什么岗位,该准备什么,未来的工作是什么样。 1.数仓开发数仓开发分离线和实时,… 程蜕云 学长学姐们是怎么看大数据管理与应用专业的? 大家好,我是这个学校大数据管理与应用的第一批本科毕业生,回顾一下这个学...
Python在大数据中的应用: 数据清理 数据清洗用于检测和纠正、删除表或数据库中不准确或损坏的记录。数据擦除是指识别不正确、不完整、不相关或其他有问题(“脏”)的数据部分,然后替换、修改或删除脏数据。htt…
实时采集现在也成了大数据平台的标配,估计主流就是FLUME+KAFKA,然后结合流处理+内存数据库吧,这个技术肯定靠谱,但这类开源的东西好是好,但一旦出现问题往往解决周期往往比较长。除了用FLUME,针对ORACLE数据库的表为了实现实时采集,也可以采用OGG/DSG等技术实现实时的日志采集,可以解决传统数据仓库抽全量表的负荷问题。