感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
第 01 天
刑事情报分析中 Big Data Business Intelligence 的概述
- 来自执法部门的案例研究 - 预测性警务
- Big Data 在执法机构的采用率以及它们如何围绕 Big Data Predictive Analytics 调整它们未来的运营
- 枪声传感器、监控视频和社交媒体等新兴技术解决方案
- 利用 Big Data 技术减轻信息过载
- 使用 Big Data 与旧数据接轨
- 对预测分析中启用技术的基本了解
- Data Integration 和仪表板可视化
- 欺诈管理
- Business Rules 和欺诈检测
- 威胁检测和档案测试
- Big Data 实施的成本效益分析
Big Data 简介
- Big Data 的主要特征 - Volume、Variety、Velocity 和 Veracity。
- MPP (Massively Parallel Processing) 架构
- Data Warehouses - 静态架构、缓慢演变的数据集
- MPP Databases:Greenplum、Exadata、Teradata、Netezza、Vertica 等。
- Hadoop 基于的解决方案 - 对数据集结构没有条件。
- 典型模式:HDFS、MapReduce (crunch)、从 HDFS 获取
- Apache Spark 用于流处理
- Batch-适合分析/非交互式
- Volume:CEP 流 Streaming 数据
- 典型选择 - CEP 产品 (例如 Infostreams、Apama、MarkLogic 等)
- Less production ready - Storm/S4
- NoSQL Databases - (columnar 和 key-value):最适合用作数据 warehouse/database 的分析附加工具
没有SQL个解决方案
- KV Store - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL Database (OnDB)
- KV Store - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
- KV Store (分层) - GT.m、Cache
- KV Store (有序) - TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
- KV Cache - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
- Tuple Store - Gigaspaces、Coord、Apache River
- 对象 Database - ZopeDB、DB40、Shoal
- 文档商店 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
- 宽列存储 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI
数据的多样性:大数据中的Data Cleaning问题简介
- RDBMS - 静态结构/架构,不促进敏捷、探索性环境。
- NoSQL - 半结构化,结构足够在存储数据之前无需精确架构即可存储数据
- 数据清理问题
Hadoop
- 何时选择 Hadoop?
- 结构化 - 企业数据仓库/数据库可以存储大量数据 (成本高) 但会施加结构 (不利于主动探索)
- 半结构化数据 - 使用传统解决方案 (DW/DB) 很难进行处理
- 数据仓库 = 巨大的努力,即使在实施后也仍然是静态的
- 对于各种各样的数据,在商品硬件上进行压缩 - HADOOP
- 创建 Hadoop 集群所需的商品硬件
Map Reduce /HDFS 简介
- MapReduce - 将计算分配到多个服务器
- HDFS - 使数据在计算过程中本地可用 (具有冗馀)
- 数据 - 可以是非结构化的/无架构的 (与 RDBMS 不同)
- 开发人员负责理解数据
- Programming MapReduce = 处理 Java (优缺点)、手动加载数据到 HDFS
第 02 天
Big Data 生态系统 -- 构建 Big Data ETL (提取、转换、加载) -- 哪些 Big Data 工具可以使用以及何时使用?
- Hadoop 与其他 NoSQL 解决方案的比较
- 对数据进行交互式、随机访问
- 位于 Hadoop 之上的 Hbase (列导向数据库)
- 对数据进行随机访问,但施加了限制 (最大 1 PB)
- 不利于即席分析,适合日志、计数、时间序列
- Sqoop - 从数据库导入到 Hive 或 HDFS (JDBC/ODBC 访问)
- Flume - 将数据流 (例如日志数据) 引入 HDFS
大数据 Management 系统
- 搬家零件、计算节点启动/故障:ZooKeeper - 用于配置/协调/命名服务
- 复杂的管道/工作流程:Oozie - 管理工作流程、依赖关系、雏菊链
- 部署、配置、集群管理、升级等 (系统管理):Ambari
- 在云端:Whirr
Predictive Analytics -- 基于基础技术和机器学习的商业智慧
- Machine Learning 介绍
- 学习分类技术
- 贝叶斯预测 -- 准备训练文件
- 支持向量机
- KNN p-树代数和垂直挖掘
- Neural Networks
- Big Data 大变量问题 -- 随机森林 (RF)
- Big Data 自动化问题 -- 多模型集合 RF
- 通过 Soft10-M 自动化
- 文本分析工具-Treeminer
- Agile 学习
- 基于代理的学习
- 分布式学习
- 介绍预测分析的开源工具:R、Python、Rapidminer、Mahut
Predictive Analytics 生态系统及其在刑事情报分析中的应用
- 技术和调查过程
- 洞察分析
- 可视化分析
- 结构化预测分析
- 非结构化预测分析
- 威胁/欺诈星/供应商档案分析
- 推荐引擎
- 模式检测
- 规则/场景发现 - 失败、欺诈、优化
- 根本原因发现
- 情感分析
- 客户关系管理分析
- 网络分析
- 从录音、证人证词、网络闲聊等获取信息的文本分析
- 技术辅助审查
- 欺诈分析
- 实时分析
第 03 天
在 Hadoop 上进行实时和 Scalable 分析
- 为什么普通的分析算法在 Hadoop/HDFS 中失败
- Apache Hama - 用于大宗同步分布计算
- Apache SPARK-用于集群计算和实时分析
- CMU Graphics Lab2-针对分布式计算的图形基准异步方法
- KNN p -- Treeminer 的一种基于代数的方法,可降低操作的硬件成本
电子数据展示和取证工具
- 针对 Big Data 与旧数据的 eDiscovery - 成本和性能的比较
- 预测编码和技术辅助审查 (TAR)
- vMiner 的现场演示,以了解 TAR 如何促进更快的发现
- 通过 HDFS 更快地进行索引 - 数据的速度
- NLP (自然语言处理) - 开源产品和技术
- 外语的 eDiscovery -- 用于外语处理的技术
大数据 BI for Cyber Security - 获取 360 度视图、快速数据收集和威胁识别
- 了解安全分析的基本知识--攻击面、安全错误配置、主机防御
- 网络基础设施/大型数据管道/实时分析的响应 ETL
- 规范性与预测性 - 基于固定规则的与从元数据自动发现威胁规则的区别
为犯罪情报分析收集不同的数据
- 利用物联网 (Internet of Things) 作为传感器来捕获数据
- 利用卫星影像进行国内监视
- 利用监控和图像数据进行刑事识别
- 其他数据收集技术 -- 无人机、身体摄像机、GPS 标记系统和热成像技术
- 结合自动数据检索和从线人、讯问和研究中获得的数据
- Forecasting 犯罪活动
第 04 天
在欺诈分析中来自 Big Data 的欺诈预防商业智慧
- 欺诈分析的基本分类 -- 基于规则的与预测分析
- 监督式和非监督式机器学习在欺诈模式检测中的应用
- Business 对商业欺诈、医疗索赔欺诈、保险欺诈、逃税和洗钱的影响
Social Media 分析——情报收集和分析
- Social Media 被罪犯用来组织、招募和计划的信息
- 提取社交媒体数据的 Big Data ETL API
- 文本、图像、元数据和视频
- 从社交媒体提要中进行情感分析
- 对社交媒体提要进行上下文和非上下文过滤
- 整合不同社交媒体的 Social Media 仪表板
- 社交媒体档案的自动化档案分析
- 将通过 Treeminer 工具现场演示每个分析
Big Data 图像处理和视频源分析
- Big Data 中的图像存储技术 -- 对于超过 petabytes 的数据的存储解决方案
- LTFS (Linear Tape File System) 和 LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- 大图像数据的分层存储解决方案
- 图像分析的基本原则
- 物体识别
- 图像分割
- 运动追踪
- 3-D 图像重建
Bio指标、DNA 和下一代鉴定程式
- 超越指纹识别和面部识别
- 语音识别、击键 (分析用户的打字模式) 和 CODIS (组合 DNA 索引系统)
- 超越 DNA 匹配:利用法医 DNA 表型技术从 DNA 样本构建面孔
Big Data 用于快速存取各种资料和显示的仪表板:
- 将现有应用程序平台与 Big Data 仪表板集成
- Big Data 管理
- Big Data 仪表板的案例研究:Tableau 和 Pentaho
- 使用 Big Data 应用程序在 Govt 中推送基于位置的服务
- 跟踪系统和管理
第 05 天
如何证明在组织内实施 Big Data BI 的合理性:
- 定义实施 Big Data 的 ROI (投资回报率)
- 收集和准备数据时节省分析师时间的案例研究 - 提高生产力
- 降低数据库许可证成本带来的收入增长
- 基于位置的服务带来的收入增长
- 欺诈预防带来的成本节省
- 计算来自 Big Data 实施的约当费用与收入增益/节省的综合电子表格方法。
用 Big Data 系统替换旧数据系统的分步过程
- Big Data 迁移路线图
- 在设计 Big Data 系统之前,需要哪些关键信息?
- 计算数据的 Volume、Velocity、Variety 和 Veracity 有哪些不同方法
- 如何估算数据增长
- 案例研究
审查 Big Data 供应商并审查其产品。
- 埃克森哲
- APTEAN (前身为 CDC Software)
- Cisco 系统
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- 日立数据系统
- Hortonworks
- 惠普
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (前身为 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS 学院
- Sisense
- 软件 AG/Terracotta
- Soft10 自动化
- Splunk
- Sqrrl
- 超级微
- Tableau 软件
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (EMC 的一部分)
问答环节
要求
- 了解执法流程和数据系统
- 对SQL/Oracle或关系数据库有基本了解
- 对统计数据(电子表格级别)有基本了解
受众
- 具有技术背景的执法专家
35 小时
客户评论 (1)
Deepthi对我的需求非常敏感,她能够分辨何时增加复杂性,何时应该保持克制,并采取更有条理的方法。 Deepthi真的按照我的步调工作,并确保我能够自己使用新的功能/工具,首先给我演示,然后让我自己重新创建这些项目,这真的有助于加深培训。我对这次培训的结果和Deepthi的专业水平感到非常满意!
Deepthi - Invest Northern Ireland
课程 - IBM Cognos Analytics
机器翻译