会议时间:2017-06-27 至 2017-06-30
会议地点:上海 上海长阳谷
课时:28h/4天
课程介绍
Hadoop 及生态系统介绍
• 传统大规模系统的问题
• Hadoop !
• Hadoop 生态系统
Hadoop 体系结构及 HDFS
• 机群环境下的分布式处理
• 存储:HDFS 体系结构
• 存储:使用 HDFS
• 资源管理:YARN 体系结构
• 资源管理:使用 YARN
使用 Apache Sqoop 导入关系数据
• Sqoop 简介
• 数据的基本导入导出
• 减少传输的数据量
• 改善 Sqoop 性能
• Sqoop 2
Impala 及 Hive 介绍
• 简介
• 为什么使用 Impala 及 Hive
• Hive 和传统数据库的比较
• Hive 应用场景
使用 Impala 及 Hive 管理数据及建模
• 数据存储
• 创建数据库及表
• 表数据导入
• HCatalog
• Impala 元数据缓存
数据格式
• 选择文件格式
• 支持不同文件格式的工具
• Avro 数据格式定义模式
• 在 Hive 及 Sqoop 里使用 Avro
• Avro 格式数据模式变更
• 压缩 数据分区
• 分区概述
• Impala 及 Hive 里的数据分区
Apache Flume 实时数据采集
• 什么是 Apache Flume
• Flume 基本体系结构
• Flume 源
• Flume 槽
• Flume 通道
• Flume 配置
Spark 基础
• 什么是 Apache Spark
• 使用 Spark Shell
• RDDs( 可恢复的分布式数据集)
• Spark 里的函数式编程 Spark RDD
• RDD
• 键值对 RDD
• MapReduce
• 其他键值对 RDD 操作
编写和部署 Spark 应用
• Spark 应用对比 Spark Shell
• 创建 SparkContext
• 创建 Spark 应用(Scala 和 Java)
• 运行 Spark 应用
• Spark 应用 WebUI
• 配置 Spark 属性
• 运行日志
Spark 的并行处理
• 回顾:机群环境里的 Spark
• RDD 分区
• 基于文件 RDD 的分区
• HDFS 和本地化数据
• 执行并行操作
• 执行阶段及任务
Spark 缓存和持久化
• RDD 演变
• 缓存
• 分布式持久化
Spark 数据处理的常见模式
• 常见 Spark 应用案例
• 迭代式算法
• 图处理及分析
• 机器学习
• 例子:K-Means 预览:Spark SQL
• Spark SQL 和 SQL Context
• 创建 DataFrames
• 变更及查询 DataFrames
• 保存 DataFrames
• Spark SQL 对比 Impala
参会指南
参会费:¥7360
大会报名地址:https://www.huodongjia.com/event-951795901.html
————————————————————————————————
活动家,一站式会议查询与报名平台,参会更放心!
官网:https://www.huodongjia.com/
门票/赞助事宜联系:028-69761252
简介:活动家是亚洲领先会议活动、培训认证、商务考察的查询、报名、票务营销平台,致力于为用户提供有价值、有意义的商务会议活动,以及为主办方提供会议免费发布、活动推广营销,讲师嘉宾邀约等服务,是你参会、办会的好助手。
9月6日 08:00
8月23日 08:00
8月22日 08:00
8月20日 08:00
8月15日 08:00