课程大纲

第 01 天

刑事情报分析中 Big Data Business Intelligence 的概述

  • 来自执法部门的案例研究 - 预测性警务
  • Big Data 在执法机构的采用率以及它们如何围绕 Big Data Predictive Analytics 调整它们未来的运营
  • 枪声传感器、监控视频和社交媒体等新兴技术解决方案
  • 利用 Big Data 技术减轻信息过载
  • 使用 Big Data 与旧数据接轨
  • 对预测分析中启用技术的基本了解
  • Data Integration 和仪表板可视化
  • 欺诈管理
  • Business Rules 和欺诈检测
  • 威胁检测和档案测试
  • Big Data 实施的成本效益分析

Big Data 简介

  • Big Data 的主要特征 - Volume、Variety、Velocity 和 Veracity。
  • MPP (Massively Parallel Processing) 架构
  • Data Warehouses - 静态架构、缓慢演变的数据集
  • MPP Databases:Greenplum、Exadata、Teradata、Netezza、Vertica 等。
  • Hadoop 基于的解决方案 - 对数据集结构没有条件。
  • 典型模式:HDFS、MapReduce (crunch)、从 HDFS 获取
  • Apache Spark 用于流处理
  • Batch-适合分析/非交互式
  • Volume:CEP 流 Streaming 数据
  • 典型选择 - CEP 产品 (例如 Infostreams、Apama、MarkLogic 等)
  • Less production ready - Storm/S4
  • NoSQL Databases - (columnar 和 key-value):最适合用作数据 warehouse/database 的分析附加工具

没有SQL个解决方案

  • KV Store - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
  • KV Store (分层) - GT.m、Cache
  • KV Store (有序) - TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
  • KV Cache - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
  • Tuple Store - Gigaspaces、Coord、Apache River
  • 对象 Database - ZopeDB、DB40、Shoal
  • 文档商店 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
  • 宽列存储 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI

数据的多样性:大数据中的Data Cleaning问题简介

  • RDBMS - 静态结构/架构,不促进敏捷、探索性环境。
  • NoSQL - 半结构化,结构足够在存储数据之前无需精确架构即可存储数据
  • 数据清理问题

Hadoop

  • 何时选择 Hadoop?
  • 结构化 - 企业数据仓库/数据库可以存储大量数据 (成本高) 但会施加结构 (不利于主动探索)
  • 半结构化数据 - 使用传统解决方案 (DW/DB) 很难进行处理
  • 数据仓库 = 巨大的努力,即使在实施后也仍然是静态的
  • 对于各种各样的数据,在商品硬件上进行压缩 - HADOOP
  • 创建 Hadoop 集群所需的商品硬件

Map Reduce /HDFS 简介

  • MapReduce - 将计算分配到多个服务器
  • HDFS - 使数据在计算过程中本地可用 (具有冗馀)
  • 数据 - 可以是非结构化的/无架构的 (与 RDBMS 不同)
  • 开发人员负责理解数据
  • Programming MapReduce = 处理 Java (优缺点)、手动加载数据到 HDFS

第 02 天

Big Data 生态系统 -- 构建 Big Data ETL (提取、转换、加载) -- 哪些 Big Data 工具可以使用以及何时使用?

  • Hadoop 与其他 NoSQL 解决方案的比较
  • 对数据进行交互式、随机访问
  • 位于 Hadoop 之上的 Hbase (列导向数据库)
  • 对数据进行随机访问,但施加了限制 (最大 1 PB)
  • 不利于即席分析,适合日志、计数、时间序列
  • Sqoop - 从数据库导入到 Hive 或 HDFS (JDBC/ODBC 访问)
  • Flume - 将数据流 (例如日志数据) 引入 HDFS

大数据 Management 系统

  • 搬家零件、计算节点启动/故障:ZooKeeper - 用于配置/协调/命名服务
  • 复杂的管道/工作流程:Oozie - 管理工作流程、依赖关系、雏菊链
  • 部署、配置、集群管理、升级等 (系统管理):Ambari
  • 在云端:Whirr

Predictive Analytics -- 基于基础技术和机器学习的商业智慧

  • Machine Learning 介绍
  • 学习分类技术
  • 贝叶斯预测 -- 准备训练文件
  • 支持向量机
  • KNN p-树代数和垂直挖掘
  • Neural Networks
  • Big Data 大变量问题 -- 随机森林 (RF)
  • Big Data 自动化问题 -- 多模型集合 RF
  • 通过 Soft10-M 自动化
  • 文本分析工具-Treeminer
  • Agile 学习
  • 基于代理的学习
  • 分布式学习
  • 介绍预测分析的开源工具:R、Python、Rapidminer、Mahut

Predictive Analytics 生态系统及其在刑事情报分析中的应用

  • 技术和调查过程
  • 洞察分析
  • 可视化分析
  • 结构化预测分析
  • 非结构化预测分析
  • 威胁/欺诈星/供应商档案分析
  • 推荐引擎
  • 模式检测
  • 规则/场景发现 - 失败、欺诈、优化
  • 根本原因发现
  • 情感分析
  • 客户关系管理分析
  • 网络分析
  • 从录音、证人证词、网络闲聊等获取信息的文本分析
  • 技术辅助审查
  • 欺诈分析
  • 实时分析

第 03 天

在 Hadoop 上进行实时和 Scalable 分析

  • 为什么普通的分析算法在 Hadoop/HDFS 中失败
  • Apache Hama - 用于大宗同步分布计算
  • Apache SPARK-用于集群计算和实时分析
  • CMU Graphics Lab2-针对分布式计算的图形基准异步方法
  • KNN p -- Treeminer 的一种基于代数的方法,可降低操作的硬件成本

电子数据展示和取证工具

  • 针对 Big Data 与旧数据的 eDiscovery - 成本和性能的比较
  • 预测编码和技术辅助审查 (TAR)
  • vMiner 的现场演示,以了解 TAR 如何促进更快的发现
  • 通过 HDFS 更快地进行索引 - 数据的速度
  • NLP (自然语言处理) - 开源产品和技术
  • 外语的 eDiscovery -- 用于外语处理的技术

大数据 BI for Cyber Security - 获取 360 度视图、快速数据收集和威胁识别

  • 了解安全分析的基本知识--攻击面、安全错误配置、主机防御
  • 网络基础设施/大型数据管道/实时分析的响应 ETL
  • 规范性与预测性 - 基于固定规则的与从元数据自动发现威胁规则的区别

为犯罪情报分析收集不同的数据

  • 利用物联网 (Internet of Things) 作为传感器来捕获数据
  • 利用卫星影像进行国内监视
  • 利用监控和图像数据进行刑事识别
  • 其他数据收集技术 -- 无人机、身体摄像机、GPS 标记系统和热成像技术
  • 结合自动数据检索和从线人、讯问和研究中获得的数据
  • Forecasting 犯罪活动

第 04 天

在欺诈分析中来自 Big Data 的欺诈预防商业智慧

  • 欺诈分析的基本分类 -- 基于规则的与预测分析
  • 监督式和非监督式机器学习在欺诈模式检测中的应用
  • Business 对商业欺诈、医疗索赔欺诈、保险欺诈、逃税和洗钱的影响

Social Media 分析——情报收集和分析

  • Social Media 被罪犯用来组织、招募和计划的信息
  • 提取社交媒体数据的 Big Data ETL API
  • 文本、图像、元数据和视频
  • 从社交媒体提要中进行情感分析
  • 对社交媒体提要进行上下文和非上下文过滤
  • 整合不同社交媒体的 Social Media 仪表板
  • 社交媒体档案的自动化档案分析
  • 将通过 Treeminer 工具现场演示每个分析

Big Data 图像处理和视频源分析

  • Big Data 中的图像存储技术 -- 对于超过 petabytes 的数据的存储解决方案
  • LTFS (Linear Tape File System) 和 LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System -  Linear Tape File System) -- 大图像数据的分层存储解决方案
  • 图像分析的基本原则
  • 物体识别
  • 图像分割
  • 运动追踪
  • 3-D 图像重建

Bio指标、DNA 和下一代鉴定程式

  • 超越指纹识别和面部识别
  • 语音识别、击键 (分析用户的打字模式) 和 CODIS (组合 DNA 索引系统)
  • 超越 DNA 匹配:利用法医 DNA 表型技术从 DNA 样本构建面孔

Big Data 用于快速存取各种资料和显示的仪表板:

  • 将现有应用程序平台与 Big Data 仪表板集成
  • Big Data 管理
  • Big Data 仪表板的案例研究:Tableau 和 Pentaho
  • 使用 Big Data 应用程序在 Govt 中推送基于位置的服务
  • 跟踪系统和管理

第 05 天

如何证明在组织内实施 Big Data BI 的合理性:

  • 定义实施 Big Data 的 ROI (投资回报率)
  • 收集和准备数据时节省分析师时间的案例研究 - 提高生产力
  • 降低数据库许可证成本带来的收入增长
  • 基于位置的服务带来的收入增长
  • 欺诈预防带来的成本节省
  • 计算来自 Big Data 实施的约当费用与收入增益/节省的综合电子表格方法。

用 Big Data 系统替换旧数据系统的分步过程

  • Big Data 迁移路线图
  • 在设计 Big Data 系统之前,需要哪些关键信息?
  • 计算数据的 Volume、Velocity、Variety 和 Veracity 有哪些不同方法
  • 如何估算数据增长
  • 案例研究

审查 Big Data 供应商并审查其产品。

  • 埃克森哲
  • APTEAN (前身为 CDC Software)
  • Cisco 系统
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • 日立数据系统
  • Hortonworks
  • 惠普
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (前身为 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS 学院
  • Sisense
  • 软件 AG/Terracotta
  • Soft10 自动化
  • Splunk
  • Sqrrl
  • 超级微
  • Tableau 软件
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (EMC 的一部分)

问答环节

要求

  • 了解执法流程和数据系统
  • 对SQL/Oracle或关系数据库有基本了解
  • 对统计数据(电子表格级别)有基本了解

受众

  • 具有技术背景的执法专家
 35 小时

客户评论 (1)

即将举行的公开课程

课程分类