ALL_imputation_chunk.py

import numpy as np
from sklearn.svm import SVR
import pandas as pd
from sklearn.model_selection import cross_val_score
from statistics import mean
import math
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import scale
from pandas import DataFrame
import pickle
from sklearn.ensemble import RandomForestRegressor
from sklearn.neighbors import KNeighborsRegressor
import time
from scipy import stats
import argparse
from sklearn.linear_model import ElasticNet
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error
from sklearn.metrics import explained_variance_score
from sklearn.metrics import r2_score
from sklearn.metrics import make_scorer#use to convert metrics to scoring callables

mse = make_scorer(mean_squared_error, greater_is_better=False)
r2 = make_scorer(r2_score, greater_is_better=True)
evs = make_scorer(explained_variance_score, greater_is_better=True)


parser = argparse.ArgumentParser()
parser.add_argument("chr", action="store", help="put chromosome no")
parser.add_argument("chunk", action="store", help="put chromosome chunk no")
args = parser.parse_args()
chrom = str(args.chr)
chunk = str(args.chunk)
tr_pop = "ALL"
pop = "CAU_thrombomodulin_rankplt5_pheno"

#important functions needed
def get_filtered_snp_annot (snpfilepath):
     snpanot = pd.read_csv(snpfilepath, sep="\t")  
     snpanot = snpanot[(((snpanot["refAllele"]=="A") & (snpanot["effectAllele"]=="C")) | ((snpanot["refAllele"]=="C") & (snpanot["effectAllele"]=="A")) | ((snpanot["refAllele"]=="A") & (snpanot["effectAllele"]=="G")) | ((snpanot["refAllele"]=="G") & (snpanot["effectAllele"]=="A")) | ((snpanot["refAllele"]=="T") & (snpanot["effectAllele"]=="G")) | ((snpanot["refAllele"]=="G") & (snpanot["effectAllele"]=="T")) | ((snpanot["refAllele"]=="T") & (snpanot["effectAllele"]=="C")) | ((snpanot["refAllele"]=="C") & (snpanot["effectAllele"]=="T"))) & (snpanot["rsid"].notna())]
     snpanot = snpanot.drop_duplicates(["varID"])
     return snpanot


def get_gene_annotation (gene_anot_filepath, chrom, gene_types=["protein_coding"]):
     gene_anot = pd.read_csv(gene_anot_filepath, sep="\t")
     gene_anot = gene_anot[(gene_anot["chr"]==str(chrom)) & (gene_anot["gene_type"].isin(gene_types))]
     return gene_anot

def get_gene_type (gene_anot, gene):
     gene_type = gene_anot[gene_anot["gene_id"]==gene]
     gene_type = gene_type.iloc[0,5]
     return gene_type

def get_gene_name (gene_anot, gene):
     gene_name = gene_anot[gene_anot["gene_id"]==gene]
     gene_name = gene_name.iloc[0,2]
     return gene_name

def get_gene_coords (gene_anot, gene):
     gene_type = gene_anot[gene_anot["gene_id"]==gene]
     gene_coord = [gene_type.iloc[0,3], gene_type.iloc[0,4]]
     return gene_coord

def get_covariates (cov_filepath):
      cov = pd.read_csv(cov_filepath, sep=" ")
      cov = cov.set_index("IID") #make IID to be the row names
      cov.index.names = [None] # remove the iid name from the row
      pc = ["PC1", "PC2", "PC3"] #a list of the PCs to retain
      cov = cov[pc]
      return cov

def get_gene_expression(gene_expression_file_name, gene_annot):
	expr_df = pd.read_csv(gene_expression_file_name, header = 0, index_col = 0, delimiter='\t')
	expr_df = expr_df.T
	inter = list(set(gene_annot['gene_id']).intersection(set(expr_df.columns)))
	#print(len(inter))
	expr_df = expr_df.loc[:, inter ]
	return expr_df

def adjust_for_covariates (expr_vec, cov_df):   
      reg = LinearRegression().fit(cov_df, expr_vec)
      ypred = reg.predict(cov_df)
      residuals = expr_vec - ypred
      residuals = scale(residuals)
      return residuals

def get_maf_filtered_genotype(genotype_file_name,  maf):
	gt_df = pd.read_csv(genotype_file_name, 'r', header = 0, index_col = 0,delimiter='\t')
	effect_allele_freqs = gt_df.mean(axis=1)
	effect_allele_freqs = [ x / 2 for x in effect_allele_freqs ]
	effect_allele_boolean = pd.Series([ ((x >= maf) & (x <= (1 - maf))) for x in effect_allele_freqs ]).values
	gt_df = gt_df.loc[ effect_allele_boolean ]
	gt_df = gt_df.T
	return gt_df

def get_cis_genotype (gt_df, snp_annot, coords, cis_window=1000000):
      snp_info = snpannot[(snpannot['pos'] >= (coords[0] - cis_window)) & (snpannot['rsid'].notna()) & (snpannot['pos'] <= (coords[1] + cis_window))]
      if len(snp_info) == 0:
          return 0
      else:
           gtdf_col = list(gt_df.columns)
           snpinfo_col = list(snp_info["varID"])
           intersect = snps_intersect(gtdf_col, snpinfo_col) #this function was defined earlier
           cis_gt = gt_df[intersect]
           return cis_gt

def calc_R2 (y, y_pred):
    tss = 0
    rss = 0
    for i in range(len(y)):
        tss = tss + (y[i])**2
        rss = rss + (((y[i]) - (y_pred[i]))**2)
    tss = float(tss)
    rss = float(rss)
    r2 = 1 - (rss/tss)
    return r2


def calc_corr (y, y_pred):
    num = 0
    dem1 = 0
    dem2 = 0
    for i in range(len(y)):
        num = num + ((y[i]) * (y_pred[i]))
        dem1 = dem1 + (y[i])**2
        dem2 = dem2 + (y_pred[i])**2
    num = float(num)
    dem1 = math.sqrt(float(dem1))
    dem2 = math.sqrt(float(dem2))
    rho = num/(dem1*dem2)
    return rho

def snps_intersect(list1, list2):
     return list(set(list1) & set(list2))


tr_snp = "/home/rschubert1/data/split_genotypes_for_paul/"+tr_pop+"/sliced_genotypes/"+tr_pop+"_chr"+chrom+"_genotype_chunk"+chunk+".txt.gz"
gex = "/home/rschubert1/data/split_genotypes_for_paul/"+tr_pop+"/chunked_expression/"+tr_pop+"_chr"+chrom+"_gex_chunk"+chunk+".txt.gz"
cov_file = "/home/rschubert1/data/split_genotypes_for_paul/covariates/PC3_"+tr_pop+"_PCs_sorted.txt"
geneanotfile = "/home/pokoro/data/mesa_models/gencode.v18.annotation.parsed.txt"
snpfilepath = "/home/rschubert1/data/split_genotypes_for_paul/anno/"+tr_pop+".chr"+chrom+".anno.txt.gz"

#train functioning
snpannot = get_filtered_snp_annot(snpfilepath)
geneannot = get_gene_annotation(geneanotfile, chrom)
cov = get_covariates(cov_file)
expr_df = get_gene_expression(gex, geneannot)
expr_df.drop(axis=0, inplace=True,labels="PROBE_ID") #Remove the PROBE_ID because ryan did not remove it when he created the expression files, and it causes error downstream
genes = list(expr_df.columns)
gt_df = get_maf_filtered_genotype(tr_snp, 0.01)

#test data files
test_snp = "/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/cau_imputation_dosage_chr"+chrom+"_chunk"+chunk+".txt"
test_annot = "/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/cau_imputation_dosage_chr"+chrom+"_annot.txt"


#test functioning
test_snpannot = get_filtered_snp_annot(test_annot)
test_gt_df = get_maf_filtered_genotype(test_snp, 0.01)
test_ids = list(test_gt_df.index)

#frame to store the ypred and test adjusted expression
ypred_frame_rf = pd.DataFrame()
ypred_frame_svr = pd.DataFrame()
ypred_frame_knn = pd.DataFrame()


#read in the grid search best result files and take the params to fit the model
rf_grid = pd.read_csv("/home/pokoro/data/mesa_models/python_ml_models/ALL_results/grid_split/"+tr_pop+"_best_grid_split_rf_cv_chr"+chrom+"_chunk"+chunk+".txt", sep="\t")
knn_grid = pd.read_csv("/home/pokoro/data/mesa_models/python_ml_models/ALL_results/grid_split/"+tr_pop+"_best_grid_split_knn_cv_chr"+chrom+"_chunk"+chunk+".txt", sep="\t")
svr_grid = pd.read_csv("/home/pokoro/data/mesa_models/python_ml_models/ALL_results/grid_split/"+tr_pop+"_best_grid_split_svr_cv_chr"+chrom+"_chunk"+chunk+".txt", sep="\t")


#create file with header to write out expression to file immediately
open("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"rf_pred_expr.txt", "a").write("gene_id")
for i in range(len(test_ids)):
     open("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"rf_pred_expr.txt", "a").write("\t" + str(test_ids[i]))

open("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"knn_pred_expr.txt", "a").write("gene_id")
for i in range(len(test_ids)):
     open("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"knn_pred_expr.txt", "a").write("\t" + str(test_ids[i]))

open("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"svr_pred_expr.txt", "a").write("gene_id")
for i in range(len(test_ids)):
     open("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"svr_pred_expr.txt", "a").write("\t" + str(test_ids[i]))


#algorithms to use

for gene in genes:
    coords = get_gene_coords(geneannot, gene)
    gene_name = get_gene_name(geneannot, gene)
        
    #print(gene)
    expr_vec = expr_df[gene]#observed exp
        
    #print(expr_vec)
    adj_exp = adjust_for_covariates(list(expr_vec), cov)#adjusted exp
        
        
    cis_gt = get_cis_genotype(gt_df, snpannot, coords)
    test_cis_gt = get_cis_genotype(test_gt_df, test_snpannot, coords)

    if (type(cis_gt) != int) & (type(test_cis_gt) != int):#just to be sure the cis genotype is not empty
        gg = [gene] #just to cast the gene id to list because pandas need it to be in list before it can be used as col name

        #take the snps
        train_snps = list(cis_gt.columns)
        test_snps = list(test_cis_gt.columns)
        snp_intersect = snps_intersect(train_snps, test_snps)

        cis_gt = cis_gt[snp_intersect]
        test_cis_gt = test_cis_gt[snp_intersect]

        if (cis_gt.shape[1] > 0) & (test_cis_gt.shape[1] > 0): #make sure that the cis_gt is not empty
            #build the model
                  
            cis_gt = cis_gt.values
            test_cis_gt = test_cis_gt.values
                  
                  
            #Random Forest
            gnlist = list(rf_grid['Gene_Name'])
            f = gene_name in gnlist
            if f != False: #Just to be sure that the gene exist in the RF best grid dataframe
                n_tree = rf_grid[rf_grid['Gene_Name']==gene_name].iloc[0,3]
                rf = RandomForestRegressor(random_state=1234, n_estimators=n_tree)
                rf.fit(cis_gt, adj_exp.ravel())
                ypred = rf.predict(test_cis_gt)

                #write out ypred quickly
                open("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"rf_pred_expr.txt", "a").write("\n")
                open("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"rf_pred_expr.txt", "a").write(str(gene))
                for j in range(len(ypred)):
                     open("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"rf_pred_expr.txt", "a").write("\t"+str(ypred[j]))

                #prepare ypred for writing out to a file
                ypred_pd = pd.DataFrame(ypred)
                       
                ypred_pd.columns = gg
                ypred_pd.index = test_ids
                ypred_frame_rf = pd.concat([ypred_frame_rf, ypred_pd], axis=1, sort=True)
                       
                      
            #Support Vector Machine
            gnlist = list(svr_grid['Gene_Name'])
            f = gene_name in gnlist
            if f != False: #Just to be sure that the gene exist in the SVR best grid dataframe
                kernel = svr_grid[svr_grid['Gene_Name']==gene_name].iloc[0,3]
                degree = svr_grid[svr_grid['Gene_Name']==gene_name].iloc[0,4]
                c = svr_grid[svr_grid['Gene_Name']==gene_name].iloc[0,5]
                svr = SVR(gamma="scale", kernel=kernel, degree=degree, C=c)
                svr.fit(cis_gt, adj_exp.ravel())
                ypred = svr.predict(test_cis_gt)

                #write out ypred quickly
                open("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"svr_pred_expr.txt", "a").write("\n")
                open("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"svr_pred_expr.txt", "a").write(str(gene))
                for j in range(len(ypred)):
                     open("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"svr_pred_expr.txt", "a").write("\t"+str(ypred[j]))
       
                #prepare ypred for writing out to a file
                yprep_pd = pd.DataFrame(ypred)
                       
                ypred_pd.columns = gg
                ypred_pd.index = test_ids
                ypred_frame_svr = pd.concat([ypred_frame_svr, ypred_pd], axis=1, sort=True)
                       
                       
            #K Nearest Neighbour
            gnlist = list(knn_grid['Gene_Name'])
            f = gene_name in gnlist
            if f != False: #Just to be sure that the gene exist in the KNN best grid dataframe
                k = knn_grid[knn_grid['Gene_Name']==gene_name].iloc[0,3]
                weight = knn_grid[knn_grid['Gene_Name']==gene_name].iloc[0,4]
                knn = KNeighborsRegressor(n_neighbors=k, weights = weight)
                knn.fit(cis_gt, adj_exp.ravel())
                ypred = knn.predict(test_cis_gt)

                #write out ypred quickly
                open("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"knn_pred_expr.txt", "a").write("\n")
                open("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"knn_pred_expr.txt", "a").write(str(gene))
                for j in range(len(ypred)):
                     open("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"knn_pred_expr.txt", "a").write("\t"+str(ypred[j]))
                       
                #prepare ypred for writing out to a file
                yprep_pd = pd.DataFrame(ypred)
                       
                ypred_pd.columns = gg
                ypred_pd.index = test_ids
                ypred_frame_knn = pd.concat([ypred_frame_knn, ypred_pd], axis=1, sort=True)
                       
                       
#There was error writing out to this file below because i failed to include the chunk before. so delete all these files in the result chunk folder for chrom 1-8, 22,20,14,19,17,16,15
#delete only there rf. eg is chr8_chunk1_ALL_2_CAU_thrombomodulin_rankplt5_pheno_rf_pred_gene_expr.txt
#and chr1_ALL_2_CAU_thrombomodulin_rankplt5_pheno_knn_pred_gene_expr.txt
ypred_frame_rf.to_csv("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"_rf_pred_gene_expr.txt", header=True, index=True, sep="\t")
ypred_frame_svr.to_csv("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"_svr_pred_gene_expr.txt", header=True, index=True, sep="\t")
ypred_frame_knn.to_csv("/home/pokoro/data/mesa_models/mesa_pheno/thrombotic/pred_expr/chunk/chr"+str(chrom)+"_chunk"+chunk+"_"+tr_pop+"_2_"+pop+"_knn_pred_gene_expr.txt", header=True, index=True, sep="\t")