课程大纲

spark.mllib:数据类型、演算法和实用程式

  • 数据类型
  • 基本统计数据
    • 汇总统计数据
    • 相关性
    • 分层抽样
    • 假设检验
    • 流显著性检验
    • 随机数据生成
  • 分类和回归
    • 线性模型(SVM、逻辑回归、线性回归)
    • 朴素贝叶斯
    • 决策树
    • 树的系综(Random Forest 和 Gradient-Boosted Trees)
    • 等渗回归
  • 协同过滤
    • 交替最小二乘法 (ALS)
  • 聚类
    • k 均值
    • 高斯混合物
    • 幂反复运算集群 (PIC)
    • 潜在狄利克雷分配 (LDA)
    • 将 k 均值一分为二
    • 流式处理 K-Means
  • 降维
    • 奇异值分解 (SVD)
    • 主成分分析 (PCA)
  • 特征提取和转换
  • 频繁的模式挖掘
    • FP 增长
    • 关联规则
    • 前缀跨度
  • 评估指标
  • PMML 模型导出
  • 优化(开发者)
    • 随机梯度下降
    • 记忆体受限 BFGS (L-BFGS)

spark.ml:ML 管道的高级 API

  • 概述:估算器、转换器和管道
  • 提取、转换和选择特征
  • 分类和回归
  • 聚类
  • 高级主题

要求

了解以下其中一项知识:

  • 爪哇岛
  • Scala
  • 火花R。
 35 小时

客户评论 (1)

即将举行的公开课程

课程分类