第四节 数据清洗与信息压缩
FRM提取行为变量
数据重组
抽样
信息压缩(概述)、分类变量重编码(概化)、基于目标变量的转换-WOE
主成分分析、变量聚类
错误值、缺失值、异常值处理
课程不单独提供证书,但是最后会有微专业证书
大学阶段基本的概率论基础和高等数据微积分基础,就可以学习本课程。下载R 和 Rstudio软件。
本课程基于R语言,系统讲解如何将数据挖掘方法运用到客户关系管理中。学校学习重方法,实际工作重流程。一个高质量的模型既要求预测能力强,又要求运行稳定。这要求建模人员不但通晓各种建模方法的性能,还要对数据生成和采集过程有深入的了解。本课程从基础开始讲解,直到行业实际运用,满足有志于从事信用风险分析工作人员的学习需求。为了展现数据分析师真实的工作情景,本课程使用R进行讲解。R语言灵活、算法更新快,但是算法不稳定,很多检验功能不完善,这给专业数据分析人员带来很大的不便。本课程希望能使学员登堂入室,了解到这些不足,避免潜在的问题,直接面向运用提供解决方案。
课程大纲:
第一节 数据挖掘建模流程与R语言介绍
数据挖掘建模流程
R语言介绍
第二节 R语言编程与数据整合
R语言介绍R中的基本对象
R中的数据类型
R语言的程序控制
R语言的函数与包
R中的数据整合
第三节 描述性统计分析
数据的分布
数据的集中、离散程度、数据的偏度峰度
描述性统计案例(R实现)
R的制图
R的制图相关的包
第四节 数据清洗与信息压缩
FRM提取行为变量
数据重组
抽样
信息压缩(概述)、分类变量重编码(概化)、基于目标变量的转换-WOE
主成分分析、变量聚类
错误值、缺失值、异常值处理
第五节 统计推断基础
假设检验与单样本T检验
两样本T检验
方差分析(分类变量和连续变量关系检验)
相关分析(两连续变量关系检验)
卡方检验(两分类变量关系检验)
第六节 客户价值预测--线性回归模型与诊断
相关性分析
线性回归
线性回归诊断
正则化方法
第七节 逻辑回归构建初始信用评级
分类变量的相关关系
逻辑回归模型
模型评估
第八节 用决策树做可表述的模式
决策树建模思路
决策树建模原理
CART算法建模原理
模型修剪
模型评估
组合算法与随机森林
汽车贷款违约的模式表述
第九节 用神经网络做行为信用评级
行为信用评分基本概念
神经网络基本概念
人工神经网络基本概念
感知器与BP模型
径向基神经网络
行为信用评分案例
第十节 分类器入门与支持向量机
分类器的概念
KNN算法
朴素贝叶斯
支持向量机