复旦大学论坛

 找回密码
 注册(开放注册)
搜索
查看: 29015|回复: 1

学统计学的同学注意了!!!

[复制链接]
发表于 2017-8-3 16:50:59 | 显示全部楼层 |阅读模式
做数据分析的,无论你是金融界,医药界,学术界or……各种界,总离不开使用软件。初入门的,面对名目繁多,品种齐全的分析软件,总要在入哪个门这一十字路口徘徊一阵,但毕竟大多数等人总会相对惯用一种软件。其中,可能R&SAS便是其中一个纠结点吧。那么这两个软件到底有什么不同?或者他们的针对的用户群有什么不一样?

  首先,R开源、免费,扩展包丰富,但是语言本身特性比较匮乏,可读性不高,处理数据量不大的研究比较方便,处理数据量很大的就得借助数据库。R语言相比于SAS更偏向与编程,就是要把你的统计研究的问题转化成编程问题,把数据用R对象(Vector, List, Data Frame等等)存储起来,然后用特定的函数操作这些R对象,把数据整理成可以进行统计分析的形式,然后用统计分析的函数来执行分析,如果不熟悉这些对象的操作方式,很容易发生细节或者操作思路上的问题。例如:数据类型不匹配(读入的数据明明是股票代码字符串,读进来变成数字),不知道如何批量转化数据(根据某个变量合并数据,如果合并中发现缺失就用线性插值来填补)等等,需要不断地积累经验才行。R相比与SAS的一个最大优势就是扩展包相当多,相当全面,对于大部分研究问题而言都不需要自己去实现底层的计算方法,在CRAN上的扩展包已经能够基本满足各种统计检验、数据挖掘、数据可视化等方面的需求,但是扩展包比较零散,很多时候需要自己去「淘金」。

  SAS很庞大,但主要优势在于入门简单,语言可读性强,语言思路比较符合统计分析的思路:大体上是数据步整理筛选数据,过程步做数据分析等等。写SAS代码的过程就是告诉SAS系统做什么,而不是怎么做,减少了很多编程细节上的麻烦。由于SAS程序是基于数据集来执行的,在处理大批量数据时(例如用整个金融市场所有股票的所有日数据分时段做三因素模型)速度很快,具有明显的优势。但是在处理很小的数据片段上有时显得比较麻烦,比如想做一个简单的回归然后获得回归系数和残差序列,然后做一些检验,R代码明显比SAS代码简单,因为R代码直接操作对象,而SAS代码考虑的是一个数据集整体上的操作,而不是单个对象层面上的操作。


  软件之间从来没有什么明显的好坏之分,再简单的软件,你若能掌握的好,照样你成大牛!但从周遭的情况看来,这两个软件在用户群上有所区别:

SAS——大公司,特别是500强的用的较多,当然处理大批量的数据(像金融行业)得心应手,通常业界普遍认为它的数据质量可靠。
R——越来越多的数据分析公司开始使用,最大的优点当然是免费;开源,图形处理能力很强(当然算法也不错),作为一股新兴力量,这几年的涨势非常高!

      



因此,向大家推荐SAS与R的暑期培训课程!

timg (1).jpg
  




一、背景介绍


1、SAS 是一款是久享盛名的数据统计分析软件,它的客户遍及金融、医药卫生、生产、运输、通讯、ZF和教育科研等领域。在数据处理和统计分析领域,SAS 系统被誉为国际上的标准软件系统,并被评选为建立数据库的首选产品。堪称统计软件界的巨无霸。


2、R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。




二、时间与地点及报名方式



培训分线上和线下两种方式。请同学/老师们根据自身条件情况来选择以哪种方式参加课程。

1、线下培训地址:上海市普陀区怒江北路399号8层 SAS培训中心
线下培训联系人:陈老师,18616335432,418403656@qq.com
线下培训安排:住宿和交通费自理,培训中心附近有汉庭、如家等快捷酒店。
学生优惠价:500/天,老师优惠价800/天。

2、线上培训:
线上培训联系人:刘老师,13120871518,553263775@qq.com
线上培训安排:跟线下课程上课内容一样,只不过是以观看的方式,课程结束后我们还会附赠录好的完整课程光盘,即使同学/老师没有时间,也可以学习课程。
学生/老师优惠价:300/门(SAS课程)。
学生/老师优惠价:600/门(R课程)。


备注:可选择部分课程上课。




三、课程目标及培训时间安排:



1、SAS入门数据处理技术培训
SAS 模块: SAS BASE
课时:3天
1、介绍:课程结构;SAS基础概要
2、SAS系统入门:介绍SAS编程;提交SAS程序
3、学习SAS句法:掌握基本概念;识别和修正句法错误
4、熟悉SAS数据集:查看描述部分和数据部分;访问SAS数据库;访问关系数据库(自学)
5、读入SAS数据集:读入数据入门;将SAS数据作为输入;选取部分观测和变量;增加永久变量属性
6、读入Excel格式数据:读入Excel格式数据;Excel表格的更多操作(自学)
7、读入固定格式的原始数据文件:读入标准的分隔符数据;读入非标准的分隔符数据
8、整理和清洗数据:整理和清洗数据入门;在读入原始数据时检验数据错误;使用PRINT和FREQ过程呈现数据;使用MEANS和UNIVARIATE过程呈现数据;清洗无效数据
9、生成数据:创建变量;创建条件变量;选择部分观测
10、拼接SAS数据集:拼接数据集入门;连接数据集(自学);合并数据集;一对一合并数据集;一对多合并数据集;合并不匹配数据集
11、增强报表:通过全局语句;增加标签和格式;创建自定义格式;选取部分观测及对观测进行分组处理;将结果输出至外部文件
12、生成汇总报表:使用FREQ过程;使用MEANS过程
13、使用SAS/GRAPH作图入门(自学):创建条形图、饼图;创建点图;强化输出
14、输入和输出管理:输出多个观测;创建多个SAS数据集;选择变量和观测
15、汇总数据:创建累加变量;对分组数据累加求和
16、读入原始数据文件:格式化读入原始数据文件;控制记录读入;列表输入附加技术(自学)
17、数据转换:操作字符型变量;操作数值型变量;转换变量类型
18、调试技术:使用PUTLOG语句;使用DEBUG语句
19、循环处理数据:DO循环处理;SAS数组处理;使用SAS数组
20、SAS数据集重构:使用DATA步转置数据集;使用TRANSPOSE过程
21、SAS数据集合并:使用数据处理技术进行数据集合并
22、其它SAS语言:语言概述;SQL过程使用;SAS宏使用
14、补充内容:SAS资源;其它推荐课程



2、SAS数据挖掘技术培训
SAS 模块 EM
课时:2天
本课程主要介绍使用 SAS Enterprise Miner 丰富的工具集构建分析流程,从而实现模式发现(分群、关联和序列分析)和预测模型(决策树、回归和神经网络模型)。
课程目标:
1、定义 SAS Enterprise Miner 项目并使用图形探索数据
2、为获得更好的分析结果重构数据
3、建立和理解预测模型,例如决策树和回归模型
4、比较并解释复杂模型
5、创建和使用评分代码
6、应用关联和序列发现处理数据
7、使用其他模型算法,例如规则归纳、梯度推进和支持向量机
课程内容:
1.        简介
•        SAS Enterprise Miner 简介
2.        访问并探索已准备数据
•        创建 SAS Enterprise Miner 项目,库和图表
•        定义数据源
•        探索数据源
3.        介绍使用决策树生成预测模型
•        生成决策树
•        优化复杂决策树
•        了解其他诊断工具(自学)
•        手工调整决策树生长选项(自学)
4.        介绍使用回归生成预测模型
•        选择回归输入
•        优化复杂回归
•        解释回归模型
•        转换输入
•        分类输入
•        多项式回归(自学)
5.        使用神经网络和其他模型工具介绍预测模型
•        神经网络模型介绍
•        输入选择
•        停止训练
•        其他模型工具(自学)
6.        模型评估
•        模型拟合统计
•        统计图形
•        调整独立采样
•        利润矩阵
7.   模型实现
•        内部评分数据集
•        评分代码模型
8.   模式发现介绍
•        聚类分析
•        市场购物篮分析(自学)
9.   专题
•        嵌入模型
•        变量选择
•        合并输入分类变量
•        替代模型
10. 案例研究
•        银行客户交易细分
•        对 Web 服务数据进行关联分析
•        创建一个基于客户贷款数据的简易信用风险模型
•        预测性高校招生管理



3、数据挖掘基础与R软件案例介绍
R软件
课时:2天
培训目的:基于R语言的数据挖掘流程介绍
主要内容;R语言介绍、基本语法和程序结构、数据挖掘的相关概念、预测模型主要包括回归和决策树等、模式发现主要包括聚类分析和关联规则等、数据准备、预处理、模型解读和预测等。
培训计划:总共两天
第一天:数据挖掘基本概念和R语言精要
上午:
1、数据挖掘的概念
2、数据挖掘分析流程概述
3、数据分析平台介绍
4、数据挖掘应用场景概貌
5、R语言简介
6、R数据对象和类型

下午:
1、复杂数据结构和应用
2、读写文件
3、程序控制结构
4、描述性统计分析
5、数据可视化
第二天:
上午:数据挖掘流程及技术
1、数据挖掘分析流程
2、数据理解和数据预处理过程
3、常用预测模型:回归、决策树、神经网络
4、常用模式发现技术:聚类分析、关联规则
5、模型解读(可解释性)
6、模型预测和评估
下午:数据挖掘案例分析
1、用户行为分析和精准营销
2、商业零售购物篮分析
3、金融信贷和个人信用评估模型
4、客户流失预测模型
 楼主| 发表于 2017-8-3 16:51:25 | 显示全部楼层
欢迎有兴趣的同学/老师前来咨询~
您需要登录后才可以回帖 登录 | 注册(开放注册)

本版积分规则

全国大学论坛友情链接
北京 上海 天津 重庆 广东 江苏 山东 浙江 河南 河北 辽宁 四川 湖北 福建 湖南 黑龙江 安徽
江西 广西 吉林 云南 陕西 山西 内蒙古 新疆 贵州 甘肃 海南 青海 宁夏 西藏 香港 澳门 台湾
手机访问本页请
扫描左边二维码
         本网站声明
本网站所有内容为网友上传,若存在版权问题或是相关责任请联系站长!
站长电话:0898-66661599    站长联系QQ:7123767   myubbs.com
         站长微信:7123767
请扫描右边二维码
www.myubbs.com

小黑屋|手机版|Archiver|复旦大学论坛 ( 琼ICP备10001196号-2 )

GMT+8, 2018-10-22 00:43 , Processed in 0.248977 second(s), 19 queries .

Powered by 高考信息网 X3.3

© 2001-2013 大学排名

快速回复 返回顶部 返回列表