CDA数据分析师 CDA数据分析师

描述性统计分析和特征选取

所属微专业:

图片
课程概述

第三节 描述性统计分析

  1. 数据的分布

  2. 数据的集中、离散程度、数据的偏度峰度

  3. 描述性统计案例(R实现)

  4. R的制图

  5. R的制图相关的包


证书要求

课程不单独提供证书,但是最后会有微专业证书

预备知识

大学阶段基本的概率论基础和高等数据微积分基础,就可以学习本课程。下载R 和 Rstudio软件。

授课大纲

    本课程基于R语言,系统讲解如何将数据挖掘方法运用到客户关系管理中。学校学习重方法,实际工作重流程。一个高质量的模型既要求预测能力强,又要求运行稳定。这要求建模人员不但通晓各种建模方法的性能,还要对数据生成和采集过程有深入的了解。本课程从基础开始讲解,直到行业实际运用,满足有志于从事信用风险分析工作人员的学习需求。为了展现数据分析师真实的工作情景,本课程使用R进行讲解。R语言灵活、算法更新快,但是算法不稳定,很多检验功能不完善,这给专业数据分析人员带来很大的不便。本课程希望能使学员登堂入室,了解到这些不足,避免潜在的问题,直接面向运用提供解决方案。


课程大纲:

第一节 数据挖掘建模流程与R语言介绍

  1. 数据挖掘建模流程

  2. R语言介绍

第二节 R语言编程与数据整合

  1. R语言介绍R中的基本对象

  2. R中的数据类型

  3. R语言的程序控制

  4. R语言的函数与包

  5. R中的数据整合

第三节 描述性统计分析

  1. 数据的分布

  2. 数据的集中、离散程度、数据的偏度峰度

  3. 描述性统计案例(R实现)

  4. R的制图

  5. R的制图相关的包

第四节 数据清洗与变量压缩

  1. R中的SQL语句

  2. 数据的横向纵向合并

  3. 错误值、缺失值、异常值处理

第五节 统计推断基础

  1. 假设检验与单样本T检验

  2. 两样本T检验

  3. 方差分析(分类变量和连续变量关系检验)

  4. 相关分析(两连续变量关系检验)

  5. 卡方检验(两分类变量关系检验)

第六节 客户价值预测--线性回归模型与诊断

  1. 相关性分析

  2. 线性回归

  3. 线性回归诊断

  4. 正则化方法

第七节 逻辑回归构建初始信用评级

  1. 分类变量的相关关系

  2. 逻辑回归模型

  3. 模型评估

第八节 用决策树做可表述的模式

  1. 决策树建模思路

  2. 决策树建模原理

  3. CART算法建模原理

  4. 模型修剪

  5. 模型评估

  6. 组合算法与随机森林

  7. 汽车贷款违约的模式表述

第九节 用神经网络做行为信用评级

  1. 行为信用评分基本概念

  2. 神经网络基本概念

  3. 人工神经网络基本概念

  4. 感知器与BP模型

  5. 径向基神经网络

  6. 行为信用评分案例

第十节 分类器入门与支持向量机

  1. 分类器的概念

  2. KNN算法

  3. 朴素贝叶斯

  4. 支持向量机





常见问题

下载安装R请访问(请下载R3.2.5以及后续版本):

https://cran.r-project.org/

下载安装Rstudio请访问(桌面版):

https://www.rstudio.com/products/RStudio/#Desktop