感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
Data Science for Big Data Analytics 简介
-
Data Science 概述
大数据概述
数据结构
大数据的驱动因素和复杂性
大数据生态系统和新的分析方法
大数据中的关键技术
数据挖掘过程和问题
关联模式挖掘
数据聚类
异常值检测
数据分类
数据分析生命周期简介
-
发现
数据准备
模型规划
模型构建
结果的介绍/Communication
操作化
练习:案例研究
从这一点 开始,大部分培训时间(80%)将花在R和相关大数据技术的示例和练习上。
R 入门
-
安装 R 和 Rstudio
R 语言的功能
R 中的对象
R 中的数据
数据操作
大数据问题
习题
开始使用 Hadoop
-
安装 Hadoop
了解 Hadoop 模式
HDFS的
MapReduce架构
Hadoop 相关项目概览
用Hadoop MapReduce编写程序
习题
将 R 和 Hadoop 与 RHadoop 集成
-
R的组成部分Hadoop
安装 RHadoop 并连接 Hadoop
R的架构Hadoop
Hadoop 使用 R 进行流式处理
使用 R 解决数据分析问题Hadoop
习题
预处理和准备数据
-
数据准备步骤
特征提取
数据清理
数据集成和转换
数据缩减 – 采样、特征子集选择、
降维
离散化和分档
练习和案例研究
R 中的探索性数据分析方法
-
描述统计学
探索性数据分析
可视化 – 初步步骤
可视化单个变量
检查多个变量
评估的统计方法
假设检验
练习和案例研究
Data Visualization秒
-
R 中的基本可视化效果
用于数据可视化的软件包 ggplot2, lattice, plotly, lattice
在 R 中设置绘图格式
高级图形
习题
回归(估计未来值)
-
线性回归
使用案例
型号说明
诊断
线性回归问题
收缩方法、脊回归、套索
泛化和非线性
回归样条曲线
局部多项式回归
广义加法模型
R回归Hadoop
练习和案例研究
分类
-
分类相关问题
贝叶斯复习
朴素贝叶斯
逻辑回归
K 最近邻
决策树算法
神经网络
支持向量机
分类器诊断
分类方法比较
ScalaBLE分类算法
练习和案例研究
评估模型性能和选择
-
偏差、方差和模型复杂性
准确性与可解释性
评估分类器
模型/算法性能的度量
保留验证方法
交叉验证
使用插入符号包调整机器学习算法
使用 Profit ROC 和 Lift 曲线可视化模型性能
集成方法
-
装袋
Random Forest秒
提高
梯度提升
练习和案例研究
支持用于分类和回归的向量机
-
最大边距分类器
支持向量分类器
支持向量机
用于分类问题的 SVM
用于回归问题的 SVM
聚类分析的特征选择 基于代表性的算法:k-means、k-medoids 分层算法:聚合和分裂方法 概率基础算法:EM 基于密度的算法:DBSCAN、DENCLUE 群集验证 高级聚类分析概念 使用R进行聚类Hadoop 练习和案例研究
-
使用链接分析发现连接
链路分析概念 用于分析网络的指标 Pagerank 算法 超链接引发的主题 Search 链路预测 练习和案例研究
-
关联模式挖掘
频繁模式挖掘模型 Scala频繁模式挖掘中的容量问题 蛮力算法 Apriori 算法 FP增长方法 候选规则评估 关联规则的应用 验证和测试 诊断 与 R 和 Hadoop 的关联规则 练习和案例研究
-
构建推荐引擎
了解推荐系统 推荐系统中使用的数据挖掘技术 带有 recommenderlab 软件包的推荐系统 评估推荐系统 RHadoop的建议 练习:构建推荐引擎
-
文本分析
文本分析步骤 收集原始文本 一袋字 术语频率 - 反向文档频率 确定情绪 练习和案例研究
35 小时
客户评论 (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
课程 - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing.