感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
介绍
- 了解数据准备在分析和机器学习中的重要性
- 数据准备管道及其在数据生命周期中的作用
- 探索原始数据中的常见挑战及其对分析的影响
数据收集和获取
- 数据源:数据库、API、电子表格、文本文件等
- 收集数据和确保收集过程中数据质量的技术
- 从各种来源收集数据
Data Cleaning 技术
- 识别和处理缺失值、异常值和不一致
- 处理数据集中的重复项和错误
- 清理真实世界的数据集
数据转换和标准化
- 数据规范化和标准化技术
- 分类数据处理:编码、分箱和特征工程
- 将原始数据转换为可用格式
Data Integration 和聚合
- 合并和组合来自不同来源的数据集
- 解决数据冲突并调整数据类型
- 数据聚合和整合技术
Data Quality 保险
- 在整个过程中确保数据质量和完整性的方法
- 实施质量检查和验证程序
- 数据质量保证的案例研究和实际应用
降维和特征选择
- 了解降维的必要性
- PCA、特征选择和约简策略等技术
- 实施降维技术
摘要和后续步骤
要求
-
基本了解数据概念
观众
-
数据分析师
Database 管理员
IT 专业人员
14 小时
客户评论 (2)
It's a hands-on session.
Vorraluck Sarechuer - Total Access Communication Public Company Limited (dtac)
课程 - Talend Open Studio for ESB
I generally enjoyed the knowledge of the trainer.