-
Notifications
You must be signed in to change notification settings - Fork 2
/
R语言培训作业.Rmd
78 lines (45 loc) · 2.32 KB
/
R语言培训作业.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
---
title: "R语言中级培训作业"
author: "Transwarp_Daitao.xing"
date: "2016年4月7日"
output: html_document
---
- 不能使用for循环
- 不能使用if else语句
## 数据抓取
### 1.1 抓取纽约尼克斯队2010-2016年的所有赛季的场次数据
入口:http://www.basketball-reference.com/teams/NYK/2016_games.html
自动获取找到2010年-2015年的数据
### 1.2 抓取尼克斯2010-2015赛季所有球员的得分表
入口: http://www.basketball-reference.com/teams/NYK/2015.html#all_per_minute
将这些表(5张)存到本地,然后使用apply函数导入并合并成一张大表(参考dplyr手册)
### 1.3 抓取豆瓣评分上前250名的电影名称
## R的函数式编程
```{r}
boostrap <- function(formula,data,n,fun = c("lm","glm"),...){
## 可以在函数输入公式,数据,抽样次数,并选择希望抽样的模型
}
```
## 预处理
- 尝试用mice包对上面的比赛数据中的缺失值做不同方法的处理
- 有四组数据,都包含卡号,交易时间和交易评分,卡号和交易时间组合可以当做主键(唯一),但四家的格式不同
- A组的时间格式:7:40:23
- B组的时间格式: 7402325
- C组的时间格式:07:40:23
- D组的时间格式: 7402325
- 将四组数据合并,然后分组统计每组的均值,方差等统计信息
## R高效数据处理
- 每个赛季的胜率?
- 每个赛季的客场胜率?
- 每个赛季的平均得分?
- 每个赛季的本方和对的手平均得分?
- 哪个对手是最强的?
- 按时间排序后,累计得分总分和累计得分均值
- 探索尼克斯队胜率与比赛时间(如星期几胜率高)、主客场,是否有统计显著性
- 计算哪两只队伍与尼克斯队所有比赛的分数差值最小
- 尼克斯队在这五年中,相对于那些队伍的胜率有所提高,并试着分析其原因
## 可视化
- 1 将上面的四组数据的差异以合适的图形表示出来
- 2、在一张图上,画出不同的球员在5个赛季中,3分球得分,2分球得分的统计分布
## 发散思维题(optional):找到一只你喜欢的队伍的历史数据和球员数据,从数据分析的角度,分析一下如何通过调整人员配置,调整战术策略来提高每个队伍的胜率
![效果对比](./assets/fig/xiaoguo.png)