anlyzCFS_pub.py

''' anlyzCFS: analyze Calls for Service
	as reported in Attachment 8 of InfoReport_OPDBudgetOperations_07.15.20
	
Created on Nov 1, 2020

@author: rik
'''

from collections import defaultdict
import datetime
from datetime import date
import csv
import glob
import math
import os
import re 
import sys
import json
import jsonlines

import pickle
import pytz

import openpyxl

import numpy as np

# HACK: probably could suffice with using postgis SQL query
from geopy import distance

import psycopg2
import graphviz as gv

# "2018-10-20 04:40:00+00"
Postgres_DT_Format = '%Y-%m-%d %H:%M:%S%z'

PCRE = r'(?P<c1>[0-9]+)(?P<rest>.*)'
APCRE = r'A(?P<c1>[0-9]+)'

PCPat = re.compile(PCRE)
APCPat = re.compile(APCRE)


OaklandTimeZone = pytz.timezone('America/Los_Angeles')

def awareDT(dt):
	'''strip away any tzinfo, assign it to OaklandTimeZone
	'''
	# https://dev.socrata.com/docs/datatypes/floating_timestamp.html
	# you can usually assume they’re in the timezone of the publisher.

	# https://docs.djangoproject.com/en/2.2/topics/i18n/timezones/#time-zones-faq
	naiveDT = dt.replace(tzinfo=None)
	return OaklandTimeZone.localize(naiveDT)

def dt2str(o):
	if isinstance(o, datetime.datetime):
		return o.__str__()

def loadCFSDetail(inf,lbl,cfsTbl):
	'''load CFS from David Muhammed, 5 Nov 20
	return cfsTbl: lbl_lineNo -> incidTbl
	'''
	
# 	wb = openpyxl.load_workbook(xlfile)
# 	for sheet in wb.worksheets:

	dtFormat = '%m/%d/%Y %H:%M' # 4/1/2020 0:01
	reader = csv.DictReader(open(inf))
	for i,entry in enumerate(reader):
		# Agency,Beat,Call Source Text,Incident Type,Incident Type Description,Priority,Create Date/Time

		incidTbl = {}
		incidTbl['beat'] = entry['Beat']
		incidTbl['source'] = entry['Call Source Text']
		statute = entry['Incident Type']
		incidTbl['statute'] = entry['Incident Type']
		incidTbl['desc'] = entry['Incident Type Description']
		incidTbl['priority'] = entry['Priority']	
			
		cdate = entry['Create Date/Time']
		incidTbl['dateTime'] = datetime.datetime.strptime(cdate,dtFormat)
		normStat = normPCCode(statute)
		incidTbl['normStat'] = normStat
	
		k = f'{lbl}_{i:05d}'
		cfsTbl[k] = incidTbl
	
	print('loadCFSDetail: NCFS=',len(cfsTbl))	
	return cfsTbl

def normPCCode(pccode):
	'''return normed,segmented version of CFS type codes
	'''
	
	# NB: try basic match first, then 'A-' prefix
	for ip,pat in enumerate([PCPat,APCPat]):
		m = re.match(pat,pccode)
		if m == None:
			continue
		
		mgdict = m.groupdict()
		if ip==0:
			rest = mgdict['rest']
		else:
			rest =  'attempted'
		
		rest = rest.replace('.',' ')
		rest = rest.replace('-',' ')
		rest = rest.replace('(',' ')
		rest = rest.replace(')',' ')
		
		rest = rest.replace(' ','')
		rest = rest.upper()
		
		return( [mgdict['c1'], rest] )
			
	# print('normPCCode: unmatched ?!', pccode)
	return None		
	
def loadCFSSummary(inf):
	'''collect simple, parsed list of entries; keep line number order as key
	'''
	
	reader = csv.DictReader(open(inf))
	cfsList = []
	totfreq = 0
	missed = {}
	for i,entry in enumerate(reader):
		# Type,Descriptions,Number of Incoming Calls in Past 12 Months of this Call Type,Number of Self Initiated Incidents in Past 12 Months of this Call Type,TOTAL

		statuteTbl = {}
		if entry['Type'] == 'Total':
			continue
		try:
			statuteTbl['lineNo'] = i
			# NB: using tweaked data
			statute = entry['NormType'].strip()
			statuteTbl['statute'] = statute
			statuteTbl['desc'] = entry['Descriptions'].strip()
			statuteTbl['nincoming'] = int(entry['Number of Incoming Calls in Past 12 Months of this Call Type'])
			statuteTbl['nincSelf'] = int(entry['Number of Self Initiated Incidents in Past 12 Months of this Call Type'])
			statuteTbl['tot'] = int(entry['TOTAL']) if entry['TOTAL'] != '' else 0
		except Exception as e:
			print('huh?',i,e)
			
		totfreq += statuteTbl['tot']
		normStat = normPCCode(statute)
		statuteTbl['normStat'] = normStat
		cfsList.append(statuteTbl)
		
	print(f'loadCFS: NCFS={len(cfsList)} TotFreq={totfreq}')
	
# 	print('# Missing statutes\nStatute,Freq,Desc')
# 	for missStat in sorted(missed.keys(),key=lambda k:missed[k]['tot'],reverse=True):
# 		infoTbl = missed[missStat]
# 		print(f'"{missStat}",{infoTbl["tot"]},"{infoTbl["desc"]}"')	
		
	return cfsList

def bldAggregDetailList(CFSDetail):
	'''collapse individual incidents into LIST of statute with counts ala summaries
	return [statuteTbl]
	'''
	
	statTbl = defaultdict(list)
	
	for k,incidTbl in CFSDetail.items():
		stat = incidTbl['statute']
		statTbl[stat].append(incidTbl)
		
	statSummList = []
	for stat in sorted(list(statTbl.keys())):
		statuteTbl = {}
		# 2do: confirm all desc,priority are the same
		for k in ['statute','desc', 'normStat']:
			# NB: artitrarily take from first incident
			statuteTbl[k] = statTbl[stat][0][k]
		statuteTbl['tot'] = len(statTbl[stat])
		statuteTbl['incidList'] = statTbl[stat]
		statSummList.append(statuteTbl)
		
	return statSummList
			
def loadPC2CC(inf):
	
	reader = csv.DictReader(open(inf))
	pcList = []
	for i,entry in enumerate(reader):
		# PC0,Freq,CrimeCat

		infoTbl = {}
		try:
			infoTbl['lineNo'] = i
			statute = entry['PC0'].strip()
			infoTbl['statute'] = statute
			infoTbl['cc'] = entry['CrimeCat'].strip()
			
			infoTbl['tot'] = int(entry['Freq'])  if entry['Freq'] != '' else 0
		except Exception as e:
			print('huh?',i,e)
			
		normStat = normPCCode(statute)
		infoTbl['normStat'] = normStat
			
		pcList.append(infoTbl)
		
	return pcList

def getPCBits(infoTbl):
	if infoTbl['normStat'] == None:
		c1 = infoTbl['statute']
		rest = ''		
	elif infoTbl['normStat'][0].isnumeric():
		c1, rest = infoTbl['normStat']
	else:
		c1 = infoTbl['statute']
		rest = ''
	return c1,rest
	
def bldPCHier(allCFS):
	'''create tree of statutes based on code/rest encoding from normPCCode()
	'''
	
	pcHier = defaultdict(lambda: defaultdict(list)) # code -> rest -> [infoTbl]
	
	for i,infoTbl in enumerate(allCFS):
		if infoTbl['normStat'] == None:
			c1 = infoTbl['statute']
			rest = ''
		else:	
			c1,rest = getPCBits(infoTbl)
			
		pcHier[c1][rest].append(infoTbl)
		
	return pcHier

def rptPCHier(pcHier,outf):
	outs = open(outf,'w')
	outs.write('C1,Rest,Freq,Statute\n')
	for c1key in sorted(pcHier.keys()):
		for restKey in sorted(pcHier[c1key].keys()):
			for infoTbl in pcHier[c1key][restKey]:
				freq = infoTbl["tot"]
				outs.write(f'{c1key},{restKey},{freq},"{infoTbl["statute"]}"\n')
	outs.close()
				

CFSFields = ['Code','Description','Source','Priority','Beat','Address','Create Time','Transmit Time',\
			'Dispatch Time','Arrival Time','Closed Time','Disposition1','Disposition2','Disposition3','Disposition4','Disposition5']

AttribNames = ['code', 'description', 'source', 'priority', 'beat', 'address', 'create time', 'transmit time', 'dispatch time', 'arrival time', 'closed time', 'disposition1', 'disposition2', 'disposition3', 'disposition4', 'disposition5']

def normField(fname):
	norm = fname.lower()
	norm = norm.replace(' ','_')
	return norm
	
class CFS():
	def __init__(self,idx):
		self.idx = idx
					
def loadCFS2csv(inf):
	'''OPD CFS data provided 201201
	'''	

	cfsTbl = {} # line# -> CFS()
	
	reader = csv.DictReader(open(inf))
	for i,entry in enumerate(reader):
		# NB: increment i for header line
		idx = i+1
		cfs = CFS(idx)
		for f in CFSFields:
			attrName = normField(f)
			setattr(cfs,attrName,entry[f])
		cfsTbl[idx] = cfs
		
	return cfsTbl

CFSEventsLC = ['transmit_time','create_time','dispatch_time','arrival_time','closed_time']
CFSEvents = ['Transmit_Time','Create_Time','Dispatch_Time','Arrival_Time','Closed_Time']

def normalizeCFS(cfsTbl,conn):
	'''add idx = line# + 1
		convert date/time strings to datetimes
		aggregate all dispositions into allDisposition
		compute tot_time = 	Dispatch_Time - Arrival_Time
		add census tract, zip, city council district, neighborhood 
		return cfsTbl (containing modified dicts)
	'''
		
	SRS_default = 4326
	SRS_census = 4269
	cfsDTFormat = '%Y-%m-%dT%H:%M:%S%z'
	oneDaySec= 86400 # 60 * 60 * 24

	notherDisp = 0
	notherCall = 0
	
	nbadDT = defaultdict(int) # event -> freq
	nmissDT = 0
	nct = 0
	nzip = 0
	nccd = 0
	nnbrhd = 0
	missCT = 0
	missZip = 0
	missCCD = 0
	missNbrhd = 0
	nLongDay = 0
	totSec = 0
	totChopSec = 0
	
	
	if conn == None:
		cur = None
	else:
		cur = conn.cursor()

	for i,cfs in cfsTbl.items():
				
		if i % 1e4 == 0:
			print(f'normalizeCFS: {i}/{len(cfsTbl)} NMissDT={nmissDT} NLongDay={nLongDay} TotSec={totSec} TotChopTime={totChopSec} NOtherDisp={notherDisp} NOtherCFS={notherCall} NCT={nct}/{missCT} NZip={nzip}/{missZip} NCCD={nccd}/{missCCD} NNbrhd={nnbrhd}/{missNbrhd}')
			
		idx = i+1 # to accomodate header line
		cfs['idx'] = idx
		badDatesP = False
		
		## First pass: normalize all datetime
		for fi,evname in enumerate(CFSEvents):
			etimeStr = cfs[evname] # getattr(cfs,evname)
			# 2019-01-01T00:00:12Z
			try:
				utcEtime = datetime.datetime.strptime(etimeStr,cfsDTFormat)
				etime = utcEtime.replace(tzinfo=OaklandTimeZone)

			except Exception as e:
				# print(f'anlyzCFS2: bad datetime?! {i} {evname} {e}')
				etime = None
				nbadDT[evname] += 1
				
			cfs[evname] = etime # setattr(cfs,evname,etime)

		# 210203: definition of total time changed
		if cfs['Dispatch_Time']	== None or cfs['Closed_Time'] == None:
			nmissDT += 1
			cfs['tot_timeSec'] = 0
			cfs['chopSec'] = 0
		else:
			totDelta = cfs['Closed_Time'] - cfs['Dispatch_Time']
			cfs['tot_timeSec'] = totDelta.days * oneDaySec + totDelta.seconds
			totSec += cfs['tot_timeSec']
			if cfs['tot_timeSec'] > oneDaySec:
				# 210203: follow Liz's rule for long events
				#  "chop" time is whatever is cleaved beyond one day
				nLongDay += 1
				cfs['chopSec'] = cfs['tot_timeSec'] - oneDaySec
				totChopSec += cfs['chopSec']
			else:
				cfs['chopSec'] = 0
		
		allDisp = []
		for di,k in enumerate(['Disposition1','Disposition2', 'Disposition3','Disposition4','Disposition5']):
			if  cfs[k] == '':
				continue
			disp = cfs[k]
			allDisp.append(disp)
			if di>0:
				notherCall += 1
				# 2do: delete separate attributes
				# del cfs[k]
		cfs['allDisposition'] = allDisp
		if len(allDisp) > 1:
			notherDisp += 1
			
		if conn == None:
			continue
		
		ptStr = cfs['Geo']
		pointDict = eval(ptStr)
		xlng = pointDict['coordinates'][0]
		ylat = pointDict['coordinates'][1]
		addr = cfs['Address']

		ptStrDefault = 'ST_SetSRID(ST_MakePoint(%s, %s),%d)' % (xlng,ylat,SRS_default)
		ptStrCensus = 'ST_SetSRID(ST_MakePoint(%s, %s),%d)' % (xlng,ylat,SRS_census)
		
		qry = 'SELECT geoid from "dailyIncid_censustract" where ST_Contains(geom,%s)' % (ptStrCensus)		
		ctGeoid = ''
		try:
			cur.execute(qry)
			ctGeoid = cur.fetchone()[0]
			# demog = ctractDemog[geoid]
			nct += 1
		except Exception as e:
			# print(f'normalizeCFS: bad CT {addr}: {e}')
			missCT += 1
		cfs['ctract'] = ctGeoid

		qry = 'SELECT zcta5ce10 from "dailyIncid_zip5geo" where ST_Contains(geom,%s)' % (ptStrDefault)		
		zip = ''
		try:
			cur.execute(qry)
			zip = cur.fetchone()[0]
			nzip += 1
		except Exception as e:
			# print(f'normalizeZip: bad zip {addr}: {e}')
			missZip += 1
		cfs['zip'] = zip

		qry = 'SELECT name from "dailyIncid_citycncldistrict" where ST_Contains(geom,%s)' % (ptStrDefault)		
		ccd = ''
		try:
			cur.execute(qry)
			ccd = cur.fetchone()[0]
			nccd += 1
		except Exception as e:
			# print(f'normalizeZip: bad zip {addr}: {e}')
			missCCD += 1
		cfs['ccd'] = ccd

		qry = 'SELECT name from oaknbrhd where ST_Contains(wkb_geometry,%s)' % (ptStrDefault)		
		nbrhd = ''
		try:
			cur.execute(qry)
			nbrhd = cur.fetchone()[0]
			nnbrhd += 1
		except Exception as e:
			# print(f'normalizeZip: bad zip {addr}: {e}')
			missNbrhd += 1
		cfs['nbrhd'] = nbrhd
		
	print(f'normalizeCFS: NCFS={len(cfsTbl)} NMissDT={nmissDT} NLongDay={nLongDay} TotSec={totSec:e} TotChopSec={totChopSec:e} NOtherDisp={notherDisp} NOtherCFS={notherCall} NCT={nct}/{missCT} NZip={nzip}/{missZip} NCCD={nccd}/{missCCD} NNbrhd={nnbrhd}/{missNbrhd}')
	
	return cfsTbl

def anlyzCFS2(cfsTbl,outdir):
	'''v2: ASSUME cfsTbl has been thru normCFS()
		capture timeDiff for CFS, some with BAD dispatch+arrival times
		
		report code,beat,disposition stats
		produce beat,code,disposition reports
			
		return timeDiff
	'''
	
	timeDiff = defaultdict(lambda: defaultdict(int)) # (event1,event2) -> nminBucket -> freq
		
	nDT = defaultdict(int) # event -> freq
	nbadDT = defaultdict(int) # event -> freq
	totBadDT = 0
	npost = 0
	
	codeFreq = defaultdict(lambda: defaultdict(int)) # code -> badDateP -> freq
	beatFreq = defaultdict(lambda: defaultdict(int))
	dispFreq = defaultdict(lambda: defaultdict(int))

	maxTime = datetime.timedelta(minutes=1)

	for i,cfs in cfsTbl.items():

		# 201217: bad tot_time from normCFS()
		totTime = cfs['Closed_Time'] - cfs['Transmit_Time']
		if totTime > maxTime:
			maxTime = totTime

		totMin = int(totTime.seconds / 60)
		
		timeDiff[('Transmit_Time','Closed_Time')][totMin] += 1
					
		badDatesP = False
		if cfs['Dispatch_Time']	== None or cfs['Arrival_Time'] == None:
			badDatesP = True
			totBadDT += 1

		# elapTime = datetime.timedelta(minutes=0)
		
		for fi,evname in enumerate(CFSEvents):
			nDT[evname] += 1
			etime = cfs[evname]
			if etime==None:
				nbadDT[evname] += 1
				
			# NB: only collect gap times for good CFS
			if fi>0 and not badDatesP:
				prevName = CFSEvents[fi-1] 
				prevTime = cfs[prevName]
				gap = etime - prevTime
				# elapTime += gap
				
				gapMinutes = int(gap.seconds / 60)
				timeDiff[ (prevName,evname) ][gapMinutes] += 1
				npost += 1
			
		codeFreq[ cfs['Code'] ][int(badDatesP)] += 1
		beatFreq[ cfs['Beat'] ][int(badDatesP)] += 1
		
		for di,k in enumerate(cfs['allDisposition']):
			if  cfs['allDisposition'][di] == '':
				continue
			disp = cfs['allDisposition'][di]
			dispFreq[disp][int(badDatesP)] += 1
				
		if i % 1e5 == 0:
			print(f'anlyzCFS2: i={i}' )
			
	print(f'anlyzCFS2: NCFS={len(cfsTbl)} MaxDurationSec={maxTime.seconds} totBadDT={totBadDT} npost={npost}')

	print('NDT')
	for evname in CFSEvents:
		print(f'\t{evname},{nDT[evname]}')

	print('BadDT')
	for evname in CFSEvents:
		print(f'\t{evname},{nbadDT[evname]}')
	
	print(f'anlyzCFS2: NCode={len(codeFreq)}')
	outf = outdir + 'codeFreq.csv'
	outs = open(outf,'w')
	outs.write('Code,Full,Non\n')
	for code in sorted(list(codeFreq.keys())):
		outs.write(f'{code},{codeFreq[code][0]},{codeFreq[code][1]}\n')
	outs.close()
		
	print(f'anlyzCFS2: NBeat={len(beatFreq)}')
	outf = outdir + 'beatFreq.csv'
	outs = open(outf,'w')
	outs.write('Beat,Full,Non\n')
	for beat in sorted(list(beatFreq.keys())):
		outs.write(f'{beat},{beatFreq[beat][0]},{beatFreq[beat][1]}\n')
	outs.close()
		
	print(f'anlyzCFS2: NDisp={len(dispFreq)}')
	outf = outdir + 'dispositionFreq.csv'
	outs = open(outf,'w')
	outs.write('Disp,Full,Non\n')
	for disp in sorted(list(dispFreq.keys())):
		outs.write(f'{disp},{dispFreq[disp][0]},{dispFreq[disp][1]}\n')
	outs.close()
	
	return timeDiff

MinDay = 60 * 24
MinMon = MinDay * 30

YearMin = 525600 # 365 * 24 * 60
WeekMin = 10080  # 7 * 24 * 60


GapBins1 = np.array([1,5,10,15,30,60,120,180,240,480,MinDay,2*MinDay,7*MinDay,365*MinDay,60000])
GapBin1Lbls = ['1m','5m','10m','15m','30m','1h','2h','3h','4h','8h','1d','2d','7d','1y','More']

MaxDurationMin = 1450 # 791 # 201216

GapBinList2 = [i for i in range(MaxDurationMin)]
GapBins2 = np.array(GapBinList2)
GapBinLbls2 = [f'{i}' for i in range(MaxDurationMin)]

MinPerBin = 2
GapBinList3 = [i * MinPerBin for i in range(int(MaxDurationMin/MinPerBin))]
GapBins3 = np.array(GapBinList3)
GapBinLbls3 = [f'{i * MinPerBin}' for i in range(int(MaxDurationMin/MinPerBin))]

PairKeys = ["Transmit_Time,Create_Time",
			"Create_Time,Dispatch_Time",
			"Dispatch_Time,Arrival_Time",
			"Arrival_Time,Closed_Time",
			"Transmit_Time,Closed_Time"]

def rptBinFreq(allBinFreq,outf):
	'''report CUMMULATIVE FRACTION of CFS with mins <= binMin
	'''
	outs = open(outf,'w')
	hdr = 'Pair'
	for lbl in GapBinLbls2:
		hdr += f',{lbl}'
	outs.write(hdr+'\n')
	for pairs in PairKeys:
		pk = tuple(pairs.split(','))
		binFreq = allBinFreq[pk]
		tot = sum(binFreq)
		print(f'rptBinFreq: {pk} Tot={tot}')
		line = f'"{pairs}"'
		cumm = 0
		# NB: Drop Zero column
		for i in range(len(GapBins2)):
			cumm += binFreq[i]
			line += f',{float(cumm)/tot}'
		outs.write(line+'\n')
	outs.close()

def anlyzTimeDiff(cfsTbl,timeDiff,outf,cumm=True):
	'''convert unique minute bucket keys to frequency bins
		report CUMMULATIVE FRACTION of CFS with mins <= binMin
	'''

	outs = open(outf,'w')
	hdr = 'Pair'
	for lbl in GapBinLbls3:
		hdr += f',{lbl}'
	outs.write(hdr+'\n')
	
	for pairs in PairKeys:
		pk = tuple(pairs.split(','))
		minGapDict = timeDiff[pk]
		allNMin = sorted(list(minGapDict.keys()))
		bidx = np.digitize(allNMin, GapBins3)
		# NB: add extra bin beyond len(GapBins2)
		binFreq = {bi:0 for bi in range(len(GapBins3)+1)}
		nlong = 0
		for ki,nmin in enumerate(allNMin):
			if nmin > MaxDurationMin:
				nlong += minGapDict[nmin]
				continue
			bi = bidx[ki]
			try:
				binFreq[bi] += minGapDict[nmin]
			except Exception as e:
				print('huh')
		tot = sum(binFreq.values())
		print(f'anlyzTimeDiff: {pk} maxMin = {allNMin[-1]} tot={tot} nlong={nlong}')

		line = f'"{pairs}"'
		cumm = 0
		# NB: Drop Zero column
		for i in range(len(GapBins3)):
			if cumm:
				cumm += binFreq[i]
				val = float(cumm)/tot
			else:
				val = binFreq[i]
			line += f',{val}'
		outs.write(line+'\n')
	outs.close()

def getMode(dist):
	'''identify key with max value, excluding zero
	'''
	allKeys = sorted(list(dist.keys()))
	maxVal = 0
	maxK = None
	for k in allKeys:
		if k==0:
			continue
		if dist[k] > maxVal:
			maxVal = dist[k]
			maxK = k
	return maxK,maxVal
					
def anlyzLocTime(cfsTbl,outdir,location='zip'):
	'''capture per-location statistics for time-to-arrival
	'''
	
	arrTime = defaultdict(lambda: defaultdict(int)) # loc -> nminBucket -> freq

	nbadDT = 0
	nNoLoc = 0
	nmissLoc = 0
	for i,cfs in cfsTbl.items():

		if cfs['Arrival_Time'] == None:
			nbadDT += 1
			continue
		if location not in cfs:
			nNoLoc += 1
			continue
				
		time2arr = cfs['Arrival_Time'] - cfs['Transmit_Time']
		time2arrMin = int(time2arr.seconds / 60)
		
		loc = cfs[location]
		if loc=='':
			nmissLoc += 1
			continue
		
		arrTime[loc][time2arrMin] += 1
	
	print(f'anlyzLocTime: NBadDT={nbadDT} NNoLoc={nNoLoc} NMissLoc={nmissLoc}')
	minFreq = 20
	nloc = 0
	statTbl = {}
	csvf = outdir + f'locTime_{location}.csv'
	csvStr = open(csvf,'w')
	csvStr.write('Loc,NCFS,WAvg\n')
	
	allLoc = sorted(list(arrTime.keys()))
	for loc in allLoc:
		tot = sum(arrTime[loc].values())
		wavg = wgtAvg(arrTime[loc])
		csvStr.write(f'{loc},{tot},{wavg}\n')
		
		if tot > minFreq:
			# NB: drop state & county digits of geoID
			if location == 'ctract':
				idx = loc[5:]
			else:
				idx = loc
			statTbl[idx] = {'ncfs': tot, 'wavg': wavg}
			nloc += 1
			
	csvStr.close()
	jsonf = outdir + f'locTime_{location}.json'
	json.dump(statTbl,open(jsonf,'w'))
	
	print(f'anlyzLocTime: NLoc={len(arrTime)} NBadDT={nbadDT} NNoLoc={nNoLoc} NFreqLoc={nloc}')

# 210112: Addresses > 100 mentions in CFS or Oakcrime
BogusAddr = set(['0',
					'100 98TH AV',
					'10700 MACARTHUR BLVD',
					'2300 SAN PABLO AV',
					'2300 SAN PABLO AVE',
					'2600 73RD AV',
					'3000 E 9TH ST',
					'3200 GRAND AV',
					'3200 LAKESHORE AV',
					'400 7TH ST',
					'400 7TH STREET',
					'400 HEGENBERGER RD',
					'4000 ALAMEDA AV',
					'600 HEGENBERGER RD',
					'6300 COLLEGE AV',
					'7000 COLISEUM WY',
					'7200 BANCROFT AV',
					'8300 OAKPORT ST',
					'8400 EDGEWATER DR'])


def comp2Incid(cfsTbl,incidConn,dispoCodes,outdir,lbl,matchRptOnly=True,pcOnly=False,uniqOnly=False):
	'''attempt to join CFS with some incidents
		Only attempt to match CFS with some dispo that is reported
		return matches: code -> desc -> crimecat -> [opd_rd]
	'''
	
	matchFile = outdir + f'matchingCFS_{lbl}.csv'
	outMatch = open(matchFile,'w')
	hdr = 'CFSIdx,MatchIdx,Code,Desc,Dispo1,ArrivalDT,CFSAddr,Beat,OPD_RD,OIDx,IncidDT,IncidAddr,CrimeCat'
	hdr += ',PCList,PCMatch,TimeDiff,SameAddr,DistM,Match'
	outMatch.write(hdr+'\n')
	
	missFile = outdir + f'missingReport_{lbl}.csv'
	outMiss = open(missFile,'w')
	hdr = 'Idx,Code,AllDispo'
	outMiss.write(hdr+'\n')
	
	maxMatch = 5
	maxDistM = 200
	maxSecAfter = 25 * 60 * 60 # 25h after arrival
	nearbyDistM = 50.

	cursor = incidConn.cursor()
	
	matches = defaultdict(lambda: defaultdict(list)) # (code,dispo1) -> (incidType,incidDesc) -> [opd_rd]
				
	nrpt = 0
	npost = 0
	nmatch = 0
	nbadArrDT = 0
	noMatch = 0
	nmaxMatch = 0
	nsameAddr = 0
	nnear = 0
	npcMatch = 0
	ndiffBeat = 0
	nbadAddr = 0
	nmatchFreq = defaultdict(int)
	startTime = datetime.datetime.now()
	
	for i,cfs in cfsTbl.items():

		if i % 1000 == 0:
			elap = datetime.datetime.now()-startTime
			print(f'comp2Incid: {i} {elap.seconds} sec NRpt={nrpt} NBadArrDT={nbadArrDT} NBadAddr={nbadAddr} NoMatch={noMatch} NPost={npost} PCMatch={npcMatch} SameAddr={nsameAddr} NNear={nnear} NMatch={nmatch}')
			
		## Only attempt to match CFS with some dispo that is reported
		allDispo = cfs['allDisposition']
		rpt = False
		for id,dispo in enumerate(allDispo):
			if dispo not in dispoCodes:
				print(f'comp2Incid: {dispo} not in table?!')
				continue
			if dispoCodes[dispo]['report'] or dispoCodes[dispo]['arrest']:
				rpt = True
				
		if matchRptOnly and not rpt:
			continue
		
		nrpt += 1
		
		if 'Arrival_Time' not in cfs or cfs['Arrival_Time']==None:
			nbadArrDT += 1
			continue

		cfsAddr = cfs['Address']
		if cfsAddr in BogusAddr:
			nbadAddr += 1
			continue
		
		cfsArrTime = cfs['Arrival_Time']
		# minDT = (cfsArrTime - datetime.timedelta(days=1))
		maxDT = (cfsArrTime + datetime.timedelta(seconds=maxSecAfter))
		minDateStr = cfsArrTime.strftime(Postgres_DT_Format)
		maxDateStr = maxDT.strftime(Postgres_DT_Format)

		ptStr = cfs['Geo']
		pointDict = eval(ptStr)
		xlng = pointDict['coordinates'][0]
		ylat = pointDict['coordinates'][1]

		# NB: Postgis points are GEOMETRY, but ST_GeogFromText() is required?!
		qryStr = '''select opd_rd,oidx,"cdateTime",addr,"crimeCat",ucr,statute,beat,geobeat,"pcList","roList",xlng,ylat from "dailyIncid_oakcrime" where 
						ST_Distance(ST_GeogFromText('POINT(%s %s)'), point) < %s and
						"cdateTime" > %s and "cdateTime" < %s;'''

		values = (xlng,ylat,maxDistM,minDateStr,maxDateStr)
				
		cursor.execute(qryStr,values)
		allResults = cursor.fetchall()

		nresult = len(allResults)		

		idx = cfs['idx']
		code = cfs['Code']

		if nresult == 0:
			noMatch += 1
			outMiss.write(f'{idx},{code},"{allDispo}"\n')
			continue
		
		nmatchFreq[nresult] += 1
				
		if nresult > maxMatch:
			nmaxMatch += 1
			# continue		

		cfsBeat = cfs['Beat']
		normCode = normPCCode(code)
		desc = cfs['Description']
		dispo1 = cfs['allDisposition'][0] if len(cfs['allDisposition']) > 0 else ''
		
		for ir,result in enumerate(allResults):
			opd_rd,oidx,incidDT,incidAddr,crimeCat,ucr,statute,beatIncid,geobeatIncid,pcListStr,ucrList,incidXLng,incidYLat = result

			if incidAddr in BogusAddr:
				nbadAddr += 1
				continue
				
			if not(cfsBeat == beatIncid or cfsBeat == geobeatIncid):
				ndiffBeat += 1

			npost += 1
			
			## Match against incident penal codes
			pcMatchP = False
			if pcListStr != None:
				pcList = eval(pcListStr)
							
				if normCode==None or pcList==None or pcList==[]:
					pcMatchP = False
				else:
					probe = normCode[0]
					pcMatchP = False
					for pc in pcList:
						if pc.find(probe) != -1:
							pcMatchP = True
							break							
			if pcMatchP:
				npcMatch += 1
				pcMatch = 1
			else:
				pcMatch = 0
			pcMatchStr = '1' if pcMatchP else '0'

			cfsATaware = awareDT(cfsArrTime)
			gapTime = (incidDT - cfsATaware)
			gapMin = gapTime.seconds / 60
							
			# NB: EXACT string match required
			sameAddr = 1 if cfsAddr==incidAddr else 0

			# NB: only test distance if addresses differ
			if sameAddr==1:
				distM = 0.
				nsameAddr += 1
			else:
				# NB: points whacked 90 degrees to conform to geopy?!
				cfsPt = (xlng+90.,ylat)
				incidPt = (incidXLng+90.,incidYLat)
				distM = distance.distance(incidPt,cfsPt).meters

			nearby = distM < nearbyDistM
			if nearby:
				nnear += 1
			
			line =  f'{idx},{ir+1},"{code}","{desc}","{dispo1}",{cfsArrTime},"{cfsAddr}",{cfsBeat},{opd_rd},{oidx},{incidDT},"{incidAddr}","{crimeCat}"'
			line += f',"{pcListStr}",{pcMatchStr},{gapMin},{sameAddr},{distM}'
		
			if uniqOnly:
				nmatch += 1
				line += ',1'
				outMatch.write(line+'\n')
				matches[ (code,dispo1) ][statute].append(opd_rd)
				break			
			
			if pcOnly and pcMatchP:
				nmatch += 1
				line += ',1'
				outMatch.write(line+'\n')
				matches[ (code,dispo1) ][statute].append(opd_rd)
				
			else:			
				if sameAddr==1 or pcMatchP or nearby:
					nmatch += 1
					line += ',1'
					outMatch.write(line+'\n')
					matches[ (code,dispo1) ][statute].append(opd_rd)
				else:
					line += ',0'
					outMatch.write(line+'\n')
	
	outMatch.close()
	outMiss.close()
								
	print(f'comp2Incid: NRpt={nrpt} NBadArrDT={nbadArrDT} NBadAddr={nbadAddr} NoMatch={noMatch} NPost={npost} PCMatch={npcMatch} SameAddr={nsameAddr} NNear={nnear} NMatch={nmatch}')
	freqRpt = ';'.join(f'{k}:{nmatchFreq[k]}' for k in sorted(list(nmatchFreq.keys())))
	print(f'comp2Incid: nmatch: {freqRpt}')

	# matches: code -> desc -> crimecat -> [opd_rd]
	matchesDict = {}
	for code in matches.keys():
		matchesDict[code] = {}
		for desc in matches[code].keys():
			matchesDict[code] = {}
			for cc in matches[code].keys():
				# NB: make a copy of [opd_rd] list
				matchesDict[code][cc] = matches[code][cc][:]
				
# 				if dlogOnly:
# 					matchesDict[code][cc] = {}
# 					for pc in matches[code][cc].keys():
# 						# NB: make a copy of [opd_rd] list
# 						matchesDict[code][cc][pc] = matches[code][cc][pc][:]
# 				else:				
					
					
	return matchesDict			 
	
def loadIncidCodes(inf):
	incidCodes = {} # incidCode -> desc
	reader = csv.DictReader(open(inf))
	for i,entry in enumerate(reader):
		# IncidentCode,IncidentTypeDescription,Notes,IncidentType,IncidentCategory,LevelofViolence,CAPenalTitle,CAPenalTitleDesc,CAPenalChapter,CAPenalChapterDesc
		try:
			ucr = entry['UCRMajorCrimesReportingCategories']
			if ucr == 'N/A':
				ucr = None
				violence = None
			else:
				# eg, Violent - Aggrevated Assault
				if ucr.startswith('Violent'):
					violence = ucr[10:]
				else:
					violence = None
					
			incidCodes[entry['IncidentCode']] = {'desc': entry['IncidentTypeDescription'],
												 'type': entry['IncidentType'],
												 'category': entry['IncidentCategory'],
												 'violence': violence,
												 'ucr': ucr
												 }
		except Exception as e:
			print(f'loadIncidCodes: {i} {e}')
			continue
		
	print(f'loadIncidCodes: NIncid={len(incidCodes)}')
	return incidCodes

def loadDispoCodes(inf):
	dispoCodes = {} # dispoCode -> desc
	reader = csv.DictReader(open(inf))
	nrpt = 0
	narrest=0
	nalarm=0
	for i,entry in enumerate(reader):
		# DispositionCode,DispositionCodeDescription,DispositionCodeCategory,Report,Notes
		info = {'desc': entry['DispositionCodeDescription'],
				'category': entry['DispositionCodeCategory']}
		rptP = True if entry['Report']=='1' else False
		info['report'] = rptP
		if rptP:
			nrpt += 1
		arrestP = True if entry['DispositionCodeCategory']=='Arrest' else False
		info['arrest'] = arrestP
		if arrestP:
			narrest += 1
		alarmP = True if entry['DispositionCodeCategory']=='Alarm' else False
		info['alarm'] = alarmP
		if alarmP:
			nalarm += 1
		dispoCodes[entry['DispositionCode']] = info
		
	print(f'loadDispoCodes: NDispo={len(dispoCodes)} NReport={nrpt} NArrest={narrest} NAlarm={nalarm}')
	
	return dispoCodes

def anlyzIncidType(normCFS,incidCodes,dispoCodes,outf):
	'''build distribution of CFS according to incid code TYPE+CHAPTER+DISPO_last
	'''

	typeFreq = defaultdict(int)
	typeTime = defaultdict(lambda: defaultdict(int)) # ckey -> tot|chp -> totSec
	icodeInPair = defaultdict(set)
	
	for cfsIdx,cfs in normCFS.items():
		code = cfs['Code']
		itype = incidCodes[code]['type']
		cat = incidCodes[code]['category'].strip()
		if cat=='':
			cat = 'I_'+code
		if len(cfs['allDisposition'])==0:
			lastDispo = 'none'
		else:
			lastDispo = cfs['allDisposition'][-1]
		classifKey = (itype,cat,lastDispo)
		typeFreq[classifKey] += 1
		typeTime[classifKey]['tot'] += cfs['tot_timeSec']
		typeTime[classifKey]['chop'] += cfs['chopSec']
		icodeInPair[classifKey].add(code)
		
	outs = open(outf,'w')
	outs.write('IncidType,Category,DispoN,DispAdmin,NCodes,Codes,Freq,AvgHr,AvgChopHr\n')
	for k in sorted(list(typeFreq.keys())):
		itype,cat,lastDispo = k
		if lastDispo=='none' or dispoCodes[lastDispo]['category'] != 'Admin':
			adminDispo = 0
		else:
			adminDispo = 1
		
		codeSet = icodeInPair[k]
		codeSetStr = str(codeSet)
		codeSetStr = codeSetStr.replace('"',"'")
		avgSec = float(typeTime[k]['tot']) / typeFreq[k]
		avgChopSec = float(typeTime[k]['chop']) / typeFreq[k]
		avgHr = round(float(avgSec) / 3600.)
		avgChopHr = round(float(avgChopSec) / 3600.)
		outs.write(f'{itype},"{cat}","{lastDispo}",{adminDispo},{len(codeSet)},"{codeSetStr}",{typeFreq[k]},{avgHr},{avgChopHr}\n')
			
	outs.close()
	
def anlyzDispoType(normCFS,dispoCodes,outf):
	'''build distribution of CFS according to dispo, those involving REPORT
	'''

	dispoFreq = defaultdict(int) # dispo ->  freq
	
	for cfsIdx,cfs in normCFS.items():
		allDispo = cfs['allDisposition']
		for id,dispo in enumerate(allDispo):
			dispoFreq[dispo] += 1				
		
	outs = open(outf,'w')
	outs.write('Dispo,Desc,DCategory,Report,Arrest,Alarm,TotFreq\n')
	for dispo in sorted(list(dispoFreq)):
		if dispo not in dispoCodes:
			print(f'anlyzDispoType: {dispo} not in table?!')
			continue
		desc = dispoCodes[dispo]['desc']
		cat = dispoCodes[dispo]['category']
		rptP = 1 if dispoCodes[dispo]['report'] else 0
		arrestP = 1 if dispoCodes[dispo]['arrest'] else 0
		alarmP = 1 if dispoCodes[dispo]['alarm'] else 0				
		outs.write(f'{dispo},"{desc}",{cat},{rptP},{arrestP},{alarmP},{dispoFreq[dispo]}\n')
			
	outs.close()

def anlyzIncidMatch(matches,incidCodes,conn,outf):
	'''analyze maps from code -> incidType, incidDesc	                               
	'''
	
	# matches: (code,dispo1) -> (incidType,incidDesc) -> [opd_rd]
	code2itype = defaultdict(lambda: defaultdict(int)) 
	code2idesc = defaultdict(lambda: defaultdict(int))
	
	for mkey in matches.keys():
		(code,dispo1) = mkey
		for pair in matches[mkey].keys():
			itype,idesc = pair
			freq = len(matches[mkey][pair])
			code2itype[code][itype] += freq
			code2idesc[code][idesc] += freq				
			
	outs = open(outf,'w')
	outs.write('Code,CDesc,TotPost,Target,NIType,MaxFreq,MaxIType,H\n')
	for code in sorted(list(code2itype.keys())):
		if code not in incidCodes:
			print(f'anlyzIncidMatch: Missing code desc: {code}')
			cdesc = ''
		cdesc = incidCodes[code]['desc']
		
		allIType = sorted(list(code2itype[code].keys()))
		nitype = len(allIType)
		itypeFreq = [code2itype[code][itype] for itype in allIType ]
		totTPost = sum(itypeFreq)
		maxNItype = max(itypeFreq)
		maxItypeIdx = itypeFreq.index(maxNItype)
		maxItype = allIType[maxItypeIdx]
		itypeH = entropy(itypeFreq)
		
		outs.write(f'{code},"{cdesc}",{totTPost},T,{nitype},{maxNItype},"{maxItype}",{itypeH}\n')
		
		allIDesc = sorted(list(code2idesc[code].keys()))
		nidesc = len(allIDesc)
		idescFreq = [code2idesc[code][idesc] for idesc in allIDesc ]
		totDPost = sum(idescFreq)
		maxNIdesc = max(idescFreq)
		maxIdescIdx = idescFreq.index(maxNIdesc)
		maxIdesc = allIDesc[maxIdescIdx]
		idescH = entropy(idescFreq)

		outs.write(f'{code},"{cdesc}",{totDPost},D,{nidesc},{maxNIdesc},"{maxIdesc}",{idescH}\n')
			
	outs.close()
		
def anlyzPLogIncidMatch(matches,incidCodes,conn,outf):
	
	outs = open(outf,'w')
	outs.write('Code,CDesc,NPC,TotPost,MaxFreq,MaxPC,H\n')
	for code in sorted(list(matches.keys())):
		if code not in incidCodes:
			print(f'anlyzIncidMatch: Missing code desc: {code}')
			cdesc = ''
		cdesc = incidCodes[code]
		normCode = normPCCode(code)
		
		allCC = sorted(list(matches[code].keys()))
		pcFreqDict = defaultdict(int)
		# NB: collapse pc's sharing normCode prefix
		samePC = defaultdict(int)
		for cc in allCC:
			for pc in matches[code][cc].keys():
				pcFreqDict[pc] += len(matches[code][cc][pc])
				if pc.startswith(normCode[0]):
					samePC[cc] += len(matches[code][cc][pc])
					
		allPC = sorted(list(pcFreqDict.keys()))
		freqPC = [pcFreqDict[pc] for pc in allPC]
		
		totPost = sum(pcFreqDict.values())
		maxFreq = max(freqPC)
		maxIdx = freqPC.index(maxFreq)
		maxPC = allPC[maxIdx]
		h = entropy(freqPC)
		outs.write(f'{code},"{cdesc}",{len(allPC)},{totPost},{maxFreq},"{maxPC}",{h}\n')
	outs.close()

def bldTransitions(normCFS,incidCodes,dispoCodes,filter=False):
	'''create trans: fromCode -> toCode -> [cfsIdx]
		if filter, don't include Admin codes or dispo
	'''

	trans = defaultdict(lambda: defaultdict(list))  # fromCode -> toCode -> [cfsIdx]
	ntrans = 0
	nmissDispo = 0
	nfilter = 0
	for cfsIdx,cfs in normCFS.items():
		idx = cfs['idx']
		if filter and incidCodes[ cfs['Code'] ]['category'] == 'Admin':
			nfilter += 1
			continue
		icode = 'I_'+cfs['Code']
		allDispo = cfs['allDisposition']
		if len(allDispo) == 0:
			nmissDispo += 1
			continue
		dispo0 = allDispo[0]
		if filter and dispoCodes[dispo0]['category'] == 'Admin':
			nfilter += 1
			continue
			
		trans[icode]['D_'+dispo0].append(idx)
		ntrans += 1
		for di,dispo in enumerate(allDispo):
			if di == 0:
				continue
			if filter and dispoCodes[dispo]['category'] == 'Admin':
				nfilter += 1
				break

			trans[ 'D_'+allDispo[di-1] ][ 'D_'+allDispo[di] ].append(idx)
			ntrans += 1
			
		if idx % 100000 == 0:
			print(f'bldTransitions: {idx} {ntrans} {nmissDispo}')
			
	print(f'bldTransitions: NTransitions={ntrans} NFilterCFS={nfilter}')
	
	return trans
	
def bldFocalTrans(normCFS,incidCodes,dispoCodes,icatList):
	'''create trans: fromCode -> toCode -> [cfsIdx]
		itypeList = [incidType]
	'''

	trans = defaultdict(lambda: defaultdict(list))  # fromCode -> toCode -> [cfsIdx]
	ntrans = 0
	nmissDispo = 0
	nfilter = 0
	for cfsIdx,cfs in normCFS.items():
		idx = cfs['idx']
		icode = cfs['Code']
		if incidCodes[icode]['category'] not in icatList:
			nfilter += 1
			continue
		
		allDispo = cfs['allDisposition']
		if len(allDispo) == 0:
			nmissDispo += 1
			continue
		dispo0 = allDispo[0]
		
		ilbl = 'I_' + icode
		trans[ilbl]['D_'+dispo0].append(idx)
		ntrans += 1
		
		for di,dispo in enumerate(allDispo):
			if di == 0:
				continue

			trans[ 'D_'+allDispo[di-1] ][ 'D_'+allDispo[di] ].append(idx)
			ntrans += 1
			
		if idx % 100000 == 0:
			print(f'bldTransitions: {idx} {ntrans} {nmissDispo}')
			
	print(f'bldTransitions: NTransitions={ntrans} NFilterCFS={nfilter}')
	
	return trans
	
def rptTransitions(trans,outf):
	
	minIncidFreq = 1 # 200
	minDispoFreq = 1 #100
	
	outs = open(outf,'w')
	
	# Order incidCodes by OUT-degree
	incidKeys = [k for k in trans.keys() if k.startswith('I_')]
	incidFreq = {}
	for ik in incidKeys:
		tot = 0
		for dk in trans[ik].keys():
			tot += len(trans[ik][dk])
		incidFreq[ik] = tot
	incidKeys.sort(key=lambda k: incidFreq[k],reverse=True)
	
	# Order dispo by IN-degree
	dispoKeys = [k for k in trans.keys() if k.startswith('D_')]
	dispoFreq = defaultdict(int)
	for k in trans.keys():
		for dk in trans[k].keys():
			dispoFreq[dk] += len(trans[k][dk])
	dispoKeys.sort(key=lambda k: dispoFreq[k],reverse=True)
	
	hdr = 'Source'
	for dk in dispoKeys:
		if dispoFreq[dk] < minDispoFreq:
			break
		hdr += f',{dk}'
	outs.write(hdr+'\n')
	
	# First incid -> dispo
	for ik in incidKeys:
		if incidFreq[ik] < minIncidFreq:
			break
		line = f'{ik}'
		for dk in dispoKeys:
			if dispoFreq[dk] < minDispoFreq:
				break
			line += f',{len(trans[ik][dk])}'
		outs.write(line+'\n')
	# then dispo -> dispo
	for dk1 in dispoKeys:
		if dispoFreq[dk1] < minDispoFreq:
			break
		line = f'{dk1}'
		for dk2 in dispoKeys:
			if dispoFreq[dk2] < minDispoFreq:
				break
			line += f',{len(trans[dk1][dk2])}'
		outs.write(line+'\n')

	outs.close()
	
def trans2edges(trans,outf):
	outs = open(outf,'w')
	outs.write('Source,Target,Freq\n')
	for k in trans.keys():
		for dk in trans[k].keys():
			outs.write(f'{k},{dk},{len(trans[k][dk])}\n')
	outs.close()

def rptFreqPaths(normCFS,outf):
	
	pathFreq = defaultdict(int)
	for cfsIdx,cfs in normCFS.items():
		code = cfs['Code']
		pathBits = [f'I_{code}']
		allDispo = cfs['allDisposition']
		for dispo in allDispo:
			pathBits.append(f'D_{dispo}')
		path = '+'.join(pathBits)
		pathFreq[path] += 1
	
	allPaths = sorted(list(pathFreq.keys()),key=(lambda p: pathFreq[p]),reverse=True)
	outs = open(outf,'w')
	outs.write('Path,Len,Freq\n')
	for path in allPaths:
		nbits = path.count('+')
		outs.write(f'{path},{nbits},{pathFreq[path]}\n')
	outs.close()

def freqPath2dot(normCFS,incidCodes,dispoCodes,outdir,filter=False):
	'''create dot graphs of incidCode -> [disposition]+ if there are more than one disposition
	'''

	minPathFreq = 100
	maxFreq = 2842
	maxLogFreq = math.log(maxFreq)
	nfilter = 0
	pathFreq = defaultdict(int)
	for cfsIdx,cfs in normCFS.items():
		code = cfs['Code']
		if filter and incidCodes[code]['category'] == 'Admin':
			nfilter += 1
			continue
		
		allDispo = cfs['allDisposition']
		if len(allDispo) < 2:
			continue
		pathBits = [f'I_{code}']
		adminFnd = False
		for dispo in allDispo:
			if filter and dispoCodes[dispo]['category'] == 'Admin':
				nfilter += 1
				adminFnd = True
				break
			pathBits.append(f'D_{dispo}')
		if not adminFnd:
			pathFreq[tuple(pathBits)] += 1

	allPaths = sorted(list(pathFreq.keys()),key=(lambda k: pathFreq[k]),reverse=True)
	nodes = set()
	edgeFreq = defaultdict(int)
	for pathTuple in allPaths:
		if pathFreq[pathTuple] < minPathFreq:
			break
		
		for nd in pathBits:
			nodes.add(nd)
		for ei,bit in enumerate(pathTuple):
			if ei==0:
				continue
			edge = (pathTuple[ei-1],pathTuple[ei])
			edgeFreq[edge] += pathFreq[pathTuple]
		
	incidNodes = [nd for nd in nodes if nd.startswith('I_')]	
		
	dot = gv.Digraph(comment='Frequent incidCode->dispo1')
	dot.attr(spline='False',rankdir='LR')
	maxPenWidth = 10.

	with dot.subgraph() as incidSG:
		incidSG.attr(rank='same')
		for ik in incidNodes:
			codeOnly = ik[2:] # drop I_
			ndColor = incidColor(incidCodes[codeOnly]['type'])
			incidSG.node(ik,color=ndColor)

	with dot.subgraph() as dispoSG:
		# dispoSG.attr(rank='same')
		for k in nodes:
			if k in incidNodes:
				continue
			dispoSG.node(k)

	for edge in edgeFreq.keys():
		fnd,tnd = edge
		
		freq = edgeFreq[edge]
		logfreq = math.log(freq)
		dot.edge(fnd,tnd,xlabel=f'{freq}',fonsize="8",weight=f'{logfreq}')

	dotFile = outdir + 'freqPath.dot'
	outs = open(dotFile,'w')
	outs.write(dot.source + '\n')
	outs.close()
	
	pngFile = outdir + 'freqPath'
	dot.render(pngFile,format='png')

	svgFile = outdir + 'freqPath'
	dot.render(svgFile,format='svg')
		

def incidColor(codeType):
	colorMap = {'Admin': 'blue',
				# 'Inchoate': 'gold',
				'Other': 'black',
				'Personal': 'red',
				'Property': 'green',
				'Statuatory': 'gray',
				'Welfare': 'tan'}
	
	if codeType in colorMap:
		return colorMap[codeType]
	else:
		return 'black'

def freqIDpairs2dot(normCFS,incidCodes,dispoCodes,lbl,outdir,filter=False):
	'''create dot graphs of incidCode -> disposition if there is only one disposition
	'''

	nnodes = 30
	minEdgeFreq = 1000
	nfilter=0
	
	codeFreq = defaultdict(int)
	dispo1Freq = defaultdict(int)
	freqPair = defaultdict(int) # (code,dispo1) -> freq
	for cfsIdx,cfs in normCFS.items():
		if filter and incidCodes[ cfs['Code'] ]['category'] == 'Admin':
			nfilter += 1
			continue

		code = 'I_' + cfs['Code']
		allDispo = cfs['allDisposition']
		if len(allDispo)>1:
			continue
		if len(allDispo)==0:
			continue
		dispo0 = allDispo[0]
		if filter and dispoCodes[dispo0]['category'] == 'Admin':
			nfilter += 1
			continue
		
		dnode = 'D_' + dispo0
		codeFreq[code] += 1
		dispo1Freq[dnode] += 1
		freqPair[ (code,dnode) ] += 1

	maxEdgeFreq = max( freqPair.values() )
	maxLogFreq = math.log(maxEdgeFreq)
	
	freqCode = set()
	freqDispo1 = set()
	mostFreqPairs = sorted(list(freqPair.keys()),key=lambda k: freqPair[k],reverse=True)
	for epair in mostFreqPairs:
		if freqPair[epair] < minEdgeFreq:
			break
		code,dispo1 = epair
		freqCode.add(code)
		freqDispo1.add(dispo1)
		
	dot = gv.Digraph(comment='Frequent incidCode->dispo1')
	dot.attr(spline='False',rankdir='LR')
	maxPenWidth = 10.

	with dot.subgraph() as incidSG:
		incidSG.attr(rank='same')
		for ik in freqCode:
			codeOnly = ik[2:] # drop I_
			ndColor = incidColor(incidCodes[codeOnly]['type'])
			incidSG.node(ik,color=ndColor)

	with dot.subgraph() as dispoSG:
		dispoSG.attr(rank='same')
		for dk in freqDispo1:
			dispoSG.node(dk)
			
	for epair in mostFreqPairs:
		freq = freqPair[epair]
		if freq < minEdgeFreq:
			break
		
		code,dispo1 = epair
		if not(code in freqCode and dispo1 in freqDispo1):
			print(f'freqIDpairs2dot: freq pair dropped: {code}->{dispo1} {freq}')
			continue

		logfreq = math.log(freq)
		pw = logfreq / maxLogFreq * maxPenWidth
		# dot.edge(dk1,dk2,penwidth=f'{pw}',)
		dot.edge(code,dispo1,xlabel=f'{freq}',fonsize="8")
			
	dotFile = outdir + f'{lbl}.dot'
	outs = open(dotFile,'w')
	outs.write(dot.source + '\n')
	outs.close()
	
	pngFile = outdir + f'{lbl}'
	dot.render(pngFile,format='png')

	svgFile = outdir + f'{lbl}'
	dot.render(svgFile,format='svg')
		
				
def trans2dot(trans,incidTbl,dispoTbl,lbl,outdir):
	minIncidFreq = 1 # 2000
	minDispoFreq = 1 # 100
	minEdgeFreq = 20 #100

	# NB: dot interprets colons in ids!
	dtrans = {}
	for k1 in trans.keys():
		dtrans[k1] = {}
		for k2 in trans[k1].keys():
			dtrans[k1][k2] = trans[k1][k2][:]			
		
	# Order incidCodes by OUT-degree
	incidKeys = [k for k in dtrans.keys() if k.startswith('I_')]
	incidFreq = {}
	for ik in incidKeys:
		tot = 0
		for dk in dtrans[ik].keys():
			tot += len(dtrans[ik][dk])
		incidFreq[ik] = tot
	incidKeys.sort(key=lambda k: incidFreq[k],reverse=True)
	
	# Order dispo by IN-degree
	dispoKeys = [k for k in dtrans.keys() if k.startswith('D_')]
	dispoFreq = defaultdict(int)
	for k in dtrans.keys():
		for dk in dtrans[k].keys():
			dispoFreq[dk] += len(dtrans[k][dk])
	dispoKeys.sort(key=lambda k: dispoFreq[k],reverse=True)

	maxFreq = max( max(incidFreq.values()),max(dispoFreq.values()) )
	maxLogFreq = math.log(maxFreq)
	
	allNodes = set()
	for ik in incidKeys:
		if incidFreq[ik] > minIncidFreq:
			allNodes.add(ik)
	for dk in dispoKeys:
		if dispoFreq[dk] > minDispoFreq:
			allNodes.add(dk)
	
	nincidNode = sum([1 for nd in allNodes if nd.startswith('I_')])
	incidNodes = set([nd for nd in allNodes if nd.startswith('I_')])
	ndispoNode = sum([1 for nd in allNodes if nd.startswith('D_')])
	dispoNodes = set([nd for nd in allNodes if nd.startswith('D_')])
	
	print(f'trans2dot: NNodes={len(allNodes)} NIncid={nincidNode} NDispo={ndispoNode}')

	dot = gv.Digraph(comment='CFS transitions')
	dot.attr(rankdir='LR',splines='True',nslimit='3',labelloc="t",label=lbl)
	maxPenWidth = 10.

	with dot.subgraph() as incidSG:
		incidSG.attr(rank='same')
		for ik in incidKeys:
			if ik in incidNodes:
				incidKey = ik[2:]
				incid = incidTbl[incidKey]
				nlbl = f'{incidKey}:\n{incid["desc"]}'
				incidSG.node(ik,label=nlbl)
		
	# Place first dispo in separate rank
	d1nodes = set()
	with dot.subgraph() as dispo1SG:
		# dispo1.attr(rank='same')
		for ik in incidKeys:
			if ik in incidNodes: 
				for dk in dtrans[ik]:
					if dk in allNodes and dk not in d1nodes:
							dispoKey = dk[2:]
							dispo = dispoTbl[dispoKey]
							nlbl = f'{dispoKey}:\n{dispo["desc"]}'
							dispo1SG.node(dk, label=nlbl)
							d1nodes.add(dk)
	
	print(f'nd1={len(d1nodes)}')
	
	dXnodes = set()
	for nd in allNodes:
		if nd not in incidNodes and nd not in d1nodes:
			dot.node(nd)
			dXnodes.add(nd)
	print(f'ndX={len(dXnodes)}')
	
	edges = set()
	for ik in incidKeys:
		if ik not in allNodes:
			continue
		for dk in dtrans[ik]:
			if dk not in allNodes:
				continue
			freq = len(dtrans[ik][dk])			
			if freq < minEdgeFreq:
				continue
			
			ekey = (ik,dk)
			if ekey in edges:
				print('dup1?!',ekey)
			else:
				edges.add(ekey)
				
			logfreq = math.log(freq)
			pw = logfreq / maxLogFreq * maxPenWidth
			# dot.edge(ik,dk)
			dot.edge(ik,dk,weight=f'{freq}',xlabel=f'{freq}')
			# dot.edge(ik,dk,weight=f'{logfreq}',penwidth=f'{pw}',xlabel=f'{freq}')
		
	print(f'Nedges1={len(edges)}')
		
	for dk1 in dispoKeys:
		if dk1 not in allNodes:
			continue
		for dk2 in dtrans[dk1].keys():
			if dk2 not in allNodes:
				continue
			freq = len(dtrans[dk1][dk2])
			if freq < minEdgeFreq:
				continue
			
			ekey = (dk1,dk2)
			if ekey in edges:
				print('dup2?!',ekey)
				continue
			else:
				edges.add(ekey)

			logfreq = math.log(freq)
			pw = logfreq / maxLogFreq * maxPenWidth
			# dot.edge(dk1,dk2)
			dot.edge(dk1,dk2,weight=f'{freq}',xlabel=f'{freq}')
			# dot.edge(dk1,dk2,weight=f'{logfreq}',penwidth=f'{pw}',xlabel=f'{freq}')

	print(f'Nedges2={len(edges)}')
			
	dotFile = outdir + f'{lbl}.dot'
	outs = open(dotFile,'w')
	outs.write(dot.source + '\n')
	outs.close()
	
	pngFile = outdir + f'{lbl}-png.png'
	dot.render(pngFile,format='png')

	svgFile = outdir + f'{lbl}-svg'
	dot.render(svgFile,format='svg')
	
def loadCPSMClassif(inf):
	'''CPSM Table 27
	'''
	reader = csv.DictReader(open(inf))
	cpsmCodes = {}
	for i,entry in enumerate(reader):
		# Code,Description,Count,Nunits,TableCategory,FigureCategory
		info = {}
		code = entry['Code']
		info['desc'] = entry['Description']
		info['count'] = entry['Count']
		info['nunit'] = entry['Nunits']
		info['tabcat'] = entry['TableCategory']
		info['figcat'] = entry['FigureCategory']
		cpsmCodes[code] = info
		
	print(f'loadCPSMClassif: NCode={len(cpsmCodes)}')
	
	return cpsmCodes

def matchHier(incidCodes,cpsmCode,outf):
	'''identify CPSM category with most codes in common with LBGlossary categories
	return list codes not found in CPSM
	'''

	match = defaultdict(lambda: defaultdict(list)) # (lbtype,lbcat) -> (figcat,tabcat) -> [codes]
	lbcodeList = defaultdict(list) # (lbtype,lbcat) -> [codes]

	allLB = set()
	allCP = set()
	missCPSM = []
	for icode in incidCodes:
		lbcode = incidCodes[icode]
		lbtype = lbcode['type']
		lbcat = lbcode['category']
		lbkey = (lbtype,lbcat)
		lbcodeList[lbkey].append(icode)
		allLB.add(lbkey)
		if icode not in cpsmCode:
			# print(f'matchHier: code missing in CPSM?! {icode}')
			missCPSM.append(icode)
			continue
		cpcode = cpsmCode[icode]
		cpfig = cpcode['figcat']
		cptab = cpcode['tabcat']
		cpkey = (cpfig,cptab)
		allCP.add(cpkey)
		match[lbkey][cpkey].append(icode)
	
	outs = open(outf,'w')
	outs.write('LBType,LBCat,NCode,CPFig,CPTab,NCommon,FracCommon\n')
	allCPKeys = sorted(list(allCP))
	for lbkey in sorted(list(allLB)):
		lbtype,lbcat = lbkey
		nmax = 0
		maxIdx = -1
		for idx,cpkey in enumerate(allCPKeys):
			if len(match[lbkey][cpkey]) > nmax:
				nmax = len(match[lbkey][cpkey])
				maxIdx = idx
		ncodes = len(lbcodeList[lbkey])
		maxCP = allCPKeys[maxIdx]
		outs.write(f'{lbtype},{lbcat},{ncodes},{maxCP[0]},{maxCP[1]},{nmax},{nmax/ncodes}\n')
	outs.close()

	print(f'matchHier: {len(missCPSM)} code missing in CPSM?! {missCPSM}')
	return missCPSM

IC21Fields = {'A': ('EVENT','opd_rd'),
				'B': ('PREMISE TYPE','premiseType'),
				'C': ('POLICE BEAT','beat'),
				'D': ('POLICE DISTRICT','district'),
				'E': ('NEIGHBORHOOD','nbrhd'),
				'F': ('CITY COUNCIL DISTRICT','ccdist'),
				'G': ('SHIFT','shift'),
				'H': ('UCR CODE','ucr'),
				'I': ('STATUTE CODE','statute'),
				'J': ('STATUTE DESC','statDesc'),
				'K': ('FROM DATE','date'),
				'L': ('CRIME TYPE','ctype'),
				}

OPDRD_RE0 = r'[0-9]{2}-[0-9]{6}'
OPDRD_Pat0 = re.compile(OPDRD_RE0)
OPDRD_RE1 = r'([A-Z]+)([0-9]{2}-[0-9]{6})'
OPDRD_Pat1 = re.compile(OPDRD_RE1)

def loadIncidCodes21(datadir):
				
	allCol = sorted(list(IC21Fields.keys()))

	allPath = glob.glob(datadir+'*.xlsx')
	
	incidTbl = defaultdict(list) # opd_rd -> [incid]
	
	rdPrefix = defaultdict(int)
	nodd = 0
	npre = 0
	n20 = 0
	for path in sorted(allPath):
		wb = openpyxl.load_workbook(path)
		for sheet in wb.worksheets:
			ws = wb.worksheets[0]
			fname = path[path.rfind('/')+1:path.find('.')]
			for ir,row in enumerate(ws.iter_rows()):
				if ir==0:
					continue
				incid = {}

				incid['fname'] = fname
				incid['row'] = ir
				for ic,cell in enumerate(row):
					colLtr = cell.column_letter				
					colHdr,fldName = IC21Fields[colLtr]
					incid[fldName] = cell.value
				
				rawRD = incid['opd_rd']
				m0 = re.match(OPDRD_Pat0,rawRD)
				if m0 != None:
					opd_rd = rawRD
				else:
					m1 = re.match(OPDRD_Pat1,rawRD)
					if m1 == None:
						nodd += 1
						print(f'loadIncidCodes21: odd RD?! {fname} {ir} {rawRD}')
						opd_rd = rawRD
					else: 
						npre += 1
						groups = m1.groups()
						prefix = groups[0]
						rdPrefix[prefix] += 1
						opd_rd = groups[1]
						# NB: incid['opd_rd'] not changed!
						incid['prefix'] = prefix
				
				if opd_rd.startswith('20-'):
					n20 += 1
				incidTbl[ opd_rd ].append(incid)
				
			print(f'loadIncidCodes21: {fname} done. NIncid={len(incidTbl)} NPre={npre} N20={n20}')

	print(f'loadIncidCodes21: finished. NIncid={len(incidTbl)} NPre={npre} N20={n20} Nodd={nodd}')
	allPrefix = sorted(list(rdPrefix.keys()))
	print('# Prefix')
	for pre in allPrefix:
		print(f'{pre},{rdPrefix[pre]}')
		
	return incidTbl

def rptICode21(icodeTbl,incidTbl,outf):

	allCol = sorted(list(IC21Fields.keys()))
		
	outs = open(outf,'w')
	hdr = ','.join([ IC21Fields[colIdx][1] for colIdx in allCol])
	hdr = 'Archive,' + hdr + '\n'
	outs.write(hdr)
	
	for opd_rd in sorted(list(icodeTbl.keys())):
		incid0 = icodeTbl[opd_rd][0]
		inArchive = '1' if opd_rd in incidTbl else '0'
		line = inArchive
		for colIdx in allCol:
			f = IC21Fields[colIdx][1]
			v = incid0[f]
			line += f',"{v}"'
		outs.write(line+'\n')
	outs.close()
	
# NB: "idx" NOT dropped from 210109 harvested CSV
ArchiveFields = ["idx","opd_rd","oidx","cdateTime","source","ctype","desc","beat","addr",\
				"xlng","ylat","point","ucr","statute","crimeCat","dlogData"]
	
def loadDailyIncdCSV(inf):
	'''Digest data collected from AWS DB, 9 Jan 21
	'''
		
	reader = csv.DictReader(open(inf))
	incidTbl = defaultdict(list)
	
# 	moFreq = defaultdict(lambda: defaultdict(int)) # moKey -> all,w/statute
	
	for i,entry in enumerate(reader):
		incid = {}
		for f in ArchiveFields:
			incid[f] = entry[f]
			
		dtstr = incid['cdateTime']
		
		# HACK timezone
		dtstr = dtstr[:dtstr.find('+')]
		dt = datetime.datetime.strptime(dtstr,'%Y-%m-%d %H:%M:%S') #Postgres_DT_Format)
		incid['cdateTime'] = dt
		dlog = True if incid['dlogData'] == 'True' else False # 'NULL'
		incid['dlogData'] = dlog
		
		incidTbl[ incid['opd_rd'] ].append(incid)
		
		if i % 40000 == 0:
			print(i)

	print(f'loadDailyIncdCSV: NIncid={len(incidTbl)}')
	
	return incidTbl

def rptDailyIncidCSV(incidTbl,outf):
	'''write dailyIncident 19/20 archive back out
		with dlogData,cdateTime,lastModDateTime,xlng,ylat,point resolved for postgres import
	'''

	outFields = ArchiveFields[:]
	# NB: how is geometry encoded?!
	outFields.remove('point')
	
	outs = open(outf,'w')
	hdr = ','.join(outFields)
	hdr += ',lastModDateTime'
	outs.write(hdr+'\n')
	
	currDTStr = datetime.datetime.now().strftime(Postgres_DT_Format)
	
	for opd_rd in sorted(list(incidTbl.keys())):
		for incid in incidTbl[opd_rd]:
			incid['cdateTime'] = incid['cdateTime'].strftime(Postgres_DT_Format)
			incid['dlogData'] = 'True' if incid['dlogData'] else 'False'
			if incid['xlng'] == 'NULL': incid['xlng'] = 0.0
			if incid['ylat'] == 'NULL': incid['ylat'] = 0.0
				
			line = ''
			for i,f in enumerate(outFields):
				if i > 0:
					line += ','
				line += f'"{incid[f]}"'  if f=='addr'  else f'{incid[f]}'
			line += f',{currDTStr}'
			outs.write(line+'\n')
	outs.close()
			
def missICodeInArchive(archive,icode21,lastDateStr,outf):
	'''report dailyIncid < lastDate NOT in incidCode21
	'''	
	
	firstDate = datetime.datetime.strptime('190101','%y%m%d')
	lastDate = datetime.datetime.strptime(lastDateStr,'%y%m%d')
	
	outs = open(outf,'w')

	hdr = ','.join([f for f in ArchiveFields])
	hdr = 'ICode21,' + hdr + '\n'
	outs.write(hdr)
		
	nskip = 0
	nin = 0
	nic21 = 0
	for opd_rd in sorted(list(archive.keys())):
		incid0 = archive[opd_rd][0]
		if opd_rd in icode21:
			inIC21 = '1'
			nic21 += 1
		else:
			inIC21 = '0'
		line = inIC21
		dt = incid0['cdateTime']
		if dt < firstDate or dt > lastDate:
			nskip += 1
			continue
		nin += 1
		for f in ArchiveFields:
			v = incid0[f]
			line += f',"{v}"'
		outs.write(line+'\n')
	outs.close()
	print(f'missICodeInArchive: NIn={nin} NIC21={nic21} NSkip={nskip}')

def updateCodes(cbCodeTbl,conn,outf):
	'''match cbCode incidents against those in dailyIncid based on opd_rd
		HACK: put ucrList in roList, because ucr is too short!
		update dailyIncid database with statute, ucr from cbCode
	'''
		
	cursor = conn.cursor()
	nmiss = 0
	nup = 0
	nfldMiss = 0
	sharedFields = ['premiseType','beat','district','nbrhd','ccdist','shift','date']
	startTime = datetime.datetime.now()
	
	outs = open(outf,'w')
	hdr = 'Idx,OPD_RD,II,RawRD,Field,Val'
	outs.write(hdr+'\n')
	
	for i,opd_rd in enumerate(sorted(list(cbCodeTbl.keys()))):
		if i % 1000 == 0:
			elap = datetime.datetime.now()-startTime
			print(f'\t{i} {opd_rd} {elap.seconds} sec NMiss={nmiss} NUpdate={nup} NFldMiss={nfldMiss}')


		# 210111: NB: add all pc,ucr to FIRST incident with oidx==0
		qry1 = 'select idx,oidx,ucr,statute from "dailyIncid_oakcrime" where opd_rd=%s and oidx=0'
		val1 = (opd_rd,)

		try:
			cursor.execute(qry1,val1)
		except Exception as e:
			print(f'updateCodes qry1 err: {i} {opd_rd} {e}')
			conn.rollback()

		
		allResults = cursor.fetchall()
		if len(allResults) == 0:
			nmiss += 1
			continue

		idx,oidx,ucr,statute = allResults[0]

		allIncid = cbCodeTbl[opd_rd]
		incid0 = allIncid[0]
		statute0 = incid0['statute']
		pcList =  [] if statute0 == None else [ statute0 ]
		ucr0 = incid0['ucr']
		ucrList =  [] if ucr0 == None else [ ucr0 ]

		if len(allIncid) > 1:
			mismatch = []

			# All should differ only in statute
			for ii in range(1,len(allIncid)):
				incidI = cbCodeTbl[opd_rd][ii]
				for f in sharedFields:
					if incidI[f] != incid0[f]:
						mismatch.append( (ii,f) )
						# print(f'updateCodes: Mismatch {i} {opd_rd} {ii} {f} {incidI[f]} != {incid0[f]}')
											
				statI = incidI['statute']
				if statI != None and statI not in pcList:
					pcList.append(statI)
				ucrI = incidI['ucr']
				if ucrI != None and ucrI not in ucrList:
					ucrList.append(ucrI)
			
			if len(mismatch)>0:
				for ii,f in mismatch:
					incidI = cbCodeTbl[opd_rd][ii]
					# 'Idx,OPD_RD,II,RawRD,Field,Val'
					outs.write(f'{i},{opd_rd},{ii},{incidI["opd_rd"]},{f},{incidI[f]}\n')
				nfldMiss += 1
				
		# 210111: HACK: put ucrList in roList, because ucr is too short!
		qry2 = '''update "dailyIncid_oakcrime" set statute = %s, ucr = %s, "pcList" = %s, 
					"roList" = %s where idx = %s;'''
		pcListStr = str(pcList).replace(' ','')
		ucrListStr = str(ucrList).replace(' ','')
		val2 = (statute0,ucr0,pcListStr,ucrListStr,idx)

		try:
			rv = cursor.execute(qry2,val2)
			conn.commit()			
			nup += 1
		except Exception as e:
			print(f'updateCodes qry2 err: {i} {opd_rd} {val2} {e}')
			conn.rollback()
	outs.close()
	print(f'updateCodes: NMiss={nmiss} NUpdate={nup} NFldMiss={nfldMiss}')

def anlyzAddrFreq(cfsTbl,outf):
	addrTbl = defaultdict(int)
	
	for i,cfs in cfsTbl.items():
		addr = cfs['Address']
		addrTbl[addr] += 1
	outs = open(outf,'w')
	outs.write('Addr,Freq\n')
	nsingle = 0
	for addr in sorted(list(addrTbl.keys()),key=lambda k: addrTbl[k],reverse=True):
		if addrTbl[addr] >= 2:
			outs.write(f'"{addr}",{addrTbl[addr]}\n')
		else:
			nsingle += 1
	outs.close()
	print(f'anlyzAddrFreq: Nsingle={nsingle}')
	
def anlyzCodeTimes(cfsTbl,incidCode, dispoCode, anlyzDir,dispoIdx=-1):
	
	incidCatTbl = defaultdict(lambda: defaultdict(list)) # cat -> tot|chop -> sec
	dispoCatTbl = defaultdict(lambda: defaultdict(list)) # cat -> tot|chop -> sec
	hourDist = defaultdict(int)
	chopDist = defaultdict(int)
	
	nmissIncid = 0
	nmissDispo = 0
	
	for i,cfs in cfsTbl.items():
		totSec = cfs['tot_timeSec']
		chopSec = cfs['chopSec']
		cfsCode = cfs['Code']
		dispoList = cfs['allDisposition']
		
		totHr = round(float(totSec) / 3600.)
		chopHr = round(float(chopSec) / 3600.)
		hourDist[totHr] += 1
		chopDist[chopHr] += 1
		
		if cfsCode not in incidCodes:
			nmissIncid += 1
		else:
			ik = (incidCode[cfsCode]['type'], incidCode[cfsCode]['category'])
			# NB: totSec used for per-category
			incidCatTbl[ik]['tot'].append(totSec)
			incidCatTbl[ik]['chop'].append(chopSec)
		
		if len(dispoList) > 0:
			dispo = dispoList[dispoIdx]
			if dispo not in dispoCode:
				nmissDispo += 1
			else:
				dispoCat = dispoCode[dispo]['category']
				# NB: totSec used for per-category
				dispoCatTbl[dispoCat]['tot'].append(totSec)
				dispoCatTbl[dispoCat]['chop'].append(chopSec)
		else:
			nmissDispo += 1
	
	print(f'anlyzCodeTimes: NMissCode={nmissIncid} NMissDispo={nmissDispo}')	

	hourDistFile = anlyzDir + 'hourDist.csv'
	outs = open(hourDistFile,'w')
	outs.write('NHour,Freq\n')
	for hr in sorted(list(hourDist.keys())):
		outs.write(f'{hr},{hourDist[hr]}\n')
	outs.close()

	chopDistFile = anlyzDir + 'chopDist.csv'
	outs = open(chopDistFile,'w')
	outs.write('NHour,Freq\n')
	for hr in sorted(list(chopDist.keys())):
		outs.write(f'{hr},{chopDist[hr]}\n')
	outs.close()
	
	incidFile = anlyzDir + 'incidCatTimes.csv'
	outs = open(incidFile,'w')
	outs.write('CFSType,CFSCat,Freq,TotHr,TotHrAvg,TotHrSD,ChopHrTot,ChopHrAvg,ChopHrSD\n')
	for ik in  sorted(list(incidCatTbl.keys())):
		freq = len(incidCatTbl[ik]['tot'])
		tot = sum(incidCatTbl[ik]['tot'])
		avgSec,sdSec = basicStats(incidCatTbl[ik]['tot'])
		totHr = round(float(tot) / 3600.)
		avgHr = round(float(avgSec) / 3600.)
		sdHr = round(float(sdSec) / 3600.)

		chop = sum(incidCatTbl[ik]['chop'])
		avgSec,sdSec = basicStats(incidCatTbl[ik]['chop'])
		chopHr = round(float(chop) / 3600.)
		avgChopHr = round(float(avgSec) / 3600.)
		sdChopHr = round(float(sdSec) / 3600.)
		
		itype,icat = ik 
		outs.write(f'{itype},{icat},{freq},{totHr},{avgHr},{sdHr},{chopHr},{avgChopHr},{sdChopHr}\n')
	outs.close()

	dispoFile = anlyzDir + 'dispoCatTimes.csv'
	outs = open(dispoFile,'w')
	outs.write('DispoCat,Freq,TotHr,TotHrAvg,TotHrSD,ChopHrTot,ChopHrAvg,ChopHrSD\n')
	for dc in  sorted(list(dispoCatTbl.keys())):
		freq = len(dispoCatTbl[dc]['tot'])
		tot = sum(dispoCatTbl[dc]['tot'])
		avg,sd = basicStats(dispoCatTbl[dc]['tot'])
		totHr = round(float(tot) / 3600.)
		avgHr = round(float(avgSec) / 3600.)
		sdHr = round(float(sdSec) / 3600.)
		
		chop = sum(dispoCatTbl[dc]['chop'])
		avgSec,sdSec = basicStats(dispoCatTbl[dc]['chop'])
		chopHr = round(float(chop) / 3600.)
		avgChopHr = round(float(avgSec) / 3600.)
		sdChopHr = round(float(sdSec) / 3600.)
		
		outs.write(f'{dc},{freq},{totHr},{avgHr},{sdHr},{chopHr},{avgChopHr},{sdChopHr}\n')
	outs.close()

def anlyzIncidCat(normCFS,incidCodes,dispoCodes,incidCatList,lbl,outdir,dispoListIdx=-1):
	'''Determine time consumed by alarms
		CFS totMin associated with FIRST disposition; else double counted!
		dispoListIdx defaults to last; use 0 for first
	'''

	trans = defaultdict(lambda: defaultdict(lambda: defaultdict(float)))  # fromCode -> toCode -> tot|chop -> totMin
	transCnt = defaultdict(lambda: defaultdict(int))  # fromCode -> toCode -> freq
	ntrans = 0
	nmissDispo = 0
	nfilter = 0
	for cfsIdx,cfs in normCFS.items():
		idx = cfs['idx']
		icode = cfs['Code']
		if incidCodes[icode]['category'] not in incidCatList:
			nfilter += 1
			continue

		totSec = cfs['tot_timeSec']
		chopSec = cfs['chopSec']
		
		allDispo = cfs['allDisposition']
		if len(allDispo) == 0:
			nmissDispo += 1
			continue
		dispoIdx = allDispo[dispoListIdx]
	
		ilbl = 'I_' + icode
		transCnt[ilbl]['D_'+dispoIdx] += 1
		trans[ilbl]['D_'+dispoIdx]['tot'] += totSec
		trans[ilbl]['D_'+dispoIdx]['chop'] += chopSec
		ntrans += 1
		
	print(f'anlyzIncidCat: {lbl} NTransitions={ntrans} NFilterCFS={nfilter}')

	# Order incidCodes by OUT-degree
	incidKeys = [k for k in trans.keys() if k.startswith('I_')]
	incidFreq = {}
	for ik in incidKeys:
		tot = 0
		for dk in trans[ik].keys():
			tot += trans[ik][dk]['tot']
		incidFreq[ik] = tot
	incidKeys.sort(key=lambda k: incidFreq[k],reverse=True)
	
	# Order dispo by IN-degree
	dispoFreq = defaultdict(int)
	for k in trans.keys():
		for dk in trans[k].keys():
			dispoFreq[dk] += trans[k][dk]['tot']
	dispoKeys = sorted(list(dispoFreq.keys()),key=lambda k: dispoFreq[k],reverse=True)
	
	tranFile = outdir + f'{lbl}_trans.csv'
	outTrans = open(tranFile,'w')
	timeFile = outdir + f'{lbl}_time.csv'
	outTime = open(timeFile,'w')
	
	hdr = 'Source'
	for dk in dispoKeys:
		hdr += f',{dk}'
	outTrans.write(hdr+',Tot\n')
	outTime.write(hdr+',TotHr,ChopHr\n')
	
	# First incid -> dispo
	for ik in incidKeys:
		tranline = f'{ik}'
		timeline = f'{ik}'

		chopSec = 0
		allDisp = 0
		totfreq = 0
		for dk in dispoKeys:
			freq = transCnt[ik][dk]
			tranline += f',{freq}'
			totfreq += freq
			totSec = trans[ik][dk]['tot']
			allDisp += totSec
			chopSec += trans[ik][dk]['chop']
			totHr =  round(float(totSec) / 3600.)
			timeline += f',{totHr}'
		allDispHr = round(float(allDisp) / 3600.)
		chopHr =  round(float(chopSec) / 3600.)

		outTrans.write(tranline+f',{totfreq}\n')
		outTime.write(timeline+f',{allDispHr},{chopHr}\n')
		
	outTrans.close()
	outTime.close()

def mergeNormCFS(prevCFS,currCFS):
	'''use geo from previous; use curr time/zone, tot_time, chop as base
		make idx the key!
	'''
	
	geoKeys = ['ctract','zip','ccd','nbrhd']
	allCurr = currCFS.keys()
	newCFS = {}
	reKeyPrev = {}
	for prev in prevCFS.values():
		prevIdx = prev['idx']
		reKeyPrev[prevIdx] = prev.copy()
		
	for cfs in currCFS.values():
		idx = cfs['idx']
		if idx % 10000 == 0:
			print(idx)
			
		if idx not in reKeyPrev:
			print('huh?!')

		newcfs = cfs.copy()
		prevCFS = reKeyPrev[idx]
		for gk in geoKeys:
			newcfs[gk] = prevCFS[gk]
		# NB: make idx the key!
		newCFS[idx] = newcfs
			
	return newCFS