ChanMenglin · Oct 24, 2018
diff --git a/‎.idea/workspace.xml
+166-108 b/‎.idea/workspace.xml
+166-108
diff --git a/‎14&15-ScatterPlot&Histogram&DensityMap/ScatterPlot&Histogram&DensityMap.py
+1 b/‎14&15-ScatterPlot&Histogram&DensityMap/ScatterPlot&Histogram&DensityMap.py
+1
diff --git a/‎16-Join/Join.py
+47 b/‎16-Join/Join.py
+47
diff --git a/‎16-Join/Student_Score.xlsx
11.1 KB b/‎16-Join/Student_Score.xlsx
11.1 KB
diff --git a/‎17-DataValidation/DataValidation.py
+30 b/‎17-DataValidation/DataValidation.py
+30
diff --git a/‎17-DataValidation/Students.xlsx
9.58 KB b/‎17-DataValidation/Students.xlsx
9.58 KB
diff --git a/‎18-DataSegmentation/DataSegmentation.py
+25 b/‎18-DataSegmentation/DataSegmentation.py
+25
diff --git a/‎18-DataSegmentation/Employees.xlsx
10.1 KB b/‎18-DataSegmentation/Employees.xlsx
10.1 KB
diff --git a/‎19-Statistics/Statistics.py
+39 b/‎19-Statistics/Statistics.py
+39
diff --git a/‎19-Statistics/Students.xlsx
10.5 KB b/‎19-Statistics/Students.xlsx
10.5 KB
diff --git a/‎20-DuplicateData/DuplicateData.py
+23 b/‎20-DuplicateData/DuplicateData.py
+23
diff --git a/‎20-DuplicateData/Students_Duplicates.xlsx
10.7 KB b/‎20-DuplicateData/Students_Duplicates.xlsx
10.7 KB
@@ -25,3 +25,4 @@
 plt.xticks(range(0,max(homes.sqft_living),500),fontsize=8,rotation=90)
 plt.show()
 
+
@@ -0,0 +1,47 @@
+# pandasVersusExcel
+# http://sa.mentorx.net/course/89/tasks
+# 第十六课 多表联合（Join）
+# 2018-10-24
+
+import pandas as pd 
+
+students = pd.read_excel('./Student_Score.xlsx',sheet_name='Students',index_col='ID')
+scores = pd.read_excel('./Student_Score.xlsx',sheet_name='Scores',index_col='ID')
+print('----原始数据----')
+print('\n----Students----')
+print(students)
+print(students.columns)
+print('\n----Scores----')
+print(scores)
+print(scores.columns)
+
+# 联合查询
+
+# 方法一
+# how: 链接方式
+#   inner(默认)-inner join
+#   left-左链接
+#   right-右链接
+# on: 链接字段(如果省略此属性，merge会自动以相同的列名作为链接的依据，但不会比较 index_col)
+# left_on/right_on: 分别指定两张表的链接依据
+# fillna(0): 将'NaN'替换为0
+table1 = students.merge(scores,how='left',on='ID').fillna(0)
+table1.Score = table1.Score.astype(int) # 将Score中的小数转换为整数
+print('\n----联合查询 方法一(inner join)----')
+print(table1)
+
+# 方法二
+# how: 链接方式
+#   inner(默认)-inner join
+#   left-左链接
+#   right-右链接
+# on: 链接字段(设置了 index_col 时如果省略此属性，join会自动以 index_col 作为链接的依据)
+# fillna(0): 将'NaN'替换为0
+table2 = students.join(scores,how='left',on='ID').fillna(0)
+table2.Score = table2.Score.astype(int) # 将Score中的小数转换为整数
+print('\n----联合查询 方法二(inner join)----')
+print(table2)
+
+
+
+
@@ -0,0 +1,30 @@
+# pandasVersusExcel
+# http://sa.mentorx.net/course/89/tasks
+# 第十七课 数据校验，轴的概念
+# 2018-10-24
+
+import pandas as pd 
+
+# 方法一
+def score_validation(row):
+    try:
+        assert 0 <= row.Score <= 100
+    except:
+        print(f'#{row.ID}\tstudent {row.Name} has an invalid score {row.Score}.')
+
+# 方法二
+def score_validation2(row):
+    if not 0 <= row.Score <= 100:
+        print(f'#{row.ID}\tstudent {row.Name} has an invalid score {row.Score}.')
+
+# 在进行数据校验时不要设置 index_col ，这样有助于保证所有数据都进行校验
+students = pd.read_excel('./Students.xlsx')
+print('----原始数据----')
+print(students)
+print(students.columns)
+
+print('\n----校验结果----')
+students.apply(score_validation,axis=1)
+
+# axis = 1: 横向
+# axis = 0: 纵向（默认）
@@ -0,0 +1,25 @@
+# pandasVersusExcel
+# http://sa.mentorx.net/course/89/tasks
+# 第十八课 把一列数据分割成两列
+# 2018-10-24
+
+import pandas as pd 
+
+employees = pd.read_excel('./Employees.xlsx',index_col='ID')
+df = employees['Full Name'].str.split(expand=True)
+print('----原始数据----')
+print(employees)
+print(employees.columns)
+print(df)
+
+employees['First Name'] = df[0]
+employees['Last Name'] = df[0]
+print('\n----分割后的结果----')
+print(employees)
+
+# 补充
+# split() 方法：
+# split(' ',n=0,expand=True)
+# split 的第一个参数： 表示分隔符默认为空格或tab
+# split 的第二个参数 n： 表示最多分割的个数（0或-1 表示分割成尽可能多的个数）
+# split 的第二个参数 expand： 默认为 False （False：分割后生成数组，占一列；True： 分割成单独的列）
@@ -0,0 +1,39 @@
+# pandasVersusExcel
+# http://sa.mentorx.net/course/89/tasks
+# 第十九课 求和，求平均，统计导引
+# 2018-10-24
+
+import pandas as pd 
+
+students = pd.read_excel('./Students.xlsx',index_col='ID')
+print('----原始数据----')
+print(students)
+print(students.columns)
+
+temp = students[['Test_1','Test_2','Test_3']]
+print('\n----需要计算的元数据----')
+print(temp)
+
+# 和
+raw_sum = temp.sum(axis=1)
+print('\n----求和----')
+print(raw_sum)
+
+# 平均值
+raw_mean = temp.mean(axis=1)
+print('\n----求平均值----')
+print(raw_mean)
+
+students['Total'] = raw_sum
+students['Average'] = raw_mean
+print('\n----整合结果----')
+print(students)
+
+col_mean = students[['Test_1','Test_2','Test_3','Total','Average']].mean()
+col_mean['Name'] = 'Summary'
+students = students.append(col_mean,ignore_index=True)
+print('\n----最终结果----')
+print(students)
+
+# axis = 1: 横向
+# axis = 0: 纵向（默认）
@@ -0,0 +1,23 @@
+# pandasVersusExcel
+# http://sa.mentorx.net/course/89/tasks
+# 第二十课 定位、消除重复数据
+# 2018-10-24
+
+import pandas as pd 
+
+students = pd.read_excel('./Students_Duplicates.xlsx')
+print('----原始数据----')
+print(students)
+print(students.columns)
+
+dupe = students.duplicated(subset='Name')
+print('\n----检查重复数据（True为重复）----')
+print(dupe)
+
+dupe = dupe[dupe] # 获取重复的行，等同于dupe = dupe[dupe==True]
+print('\n----查看重复数据----')
+print(students.iloc[dupe.index])
+
+students.drop_duplicates(subset='Name',inplace=True)
+print('\n----消除重复数据后的数据----')
+print(students)
Original file line number	Diff line number	Diff line change
`@@ -25,3 +25,4 @@`
`25`	`25`	`plt.xticks(range(0,max(homes.sqft_living),500),fontsize=8,rotation=90)`
`26`	`26`	`plt.show()`
`27`	`27`
	`28`	`+`