Merge pull request #45 from J35P312/master

J35P312 · web-flow · commit 18b2ad0fb124 · 2018-03-13T14:00:36.000+01:00
version 2.2.1
diff --git a/TIDDIT.py b/TIDDIT.py
@@ -3,7 +3,7 @@
 import os
 import TIDDIT_clustering
 
-version = "2.1.1"
+version = "2.2.1"
 parser = argparse.ArgumentParser("""TIDDIT-{}""".format(version),add_help=False)
 parser.add_argument('--sv'       , help="call structural variation", required=False, action="store_true")
 parser.add_argument('--cov'        , help="generate a coverage bed file", required=False, action="store_true")
diff --git a/TIDDIT_clustering.py b/TIDDIT_clustering.py
@@ -268,7 +268,7 @@ def analyse_pos(candidate_signals,discordants,library_stats,args):
 def generate_clusters(chrA,chrB,coordinates,library_stats,args):
 	candidates=[]
 	coordinates=coordinates[numpy.lexsort((coordinates[:,1],coordinates[:,0]))]
-	db=DBSCAN.main(coordinates[:,0:2],args.e,args.l)
+	db=DBSCAN.main(coordinates[:,0:2],args.e,int(round(args.l+library_stats["ploidies"][chrA]/(args.n*10))))
 	unique_labels = set(db)
 
 	for var in unique_labels:
@@ -338,40 +338,57 @@ def fetch_variant_type(chrA,chrB,candidate,args,library_stats):
 		var="<DUP>"		
 
 	if chrA == chrB and library_stats["ploidies"][chrA]:
-		if candidate["discs"]:
+		ploidy=library_stats["ploidies"][chrA]
+		if ploidy > 10:
+			if candidate["discs"] and abs(candidate["covM"]/library_stats["chr_cov"][chrA]-1) < 0.05:
+				if candidate["FF"] + candidate["RR"] > candidate["RF"] + candidate["FR"]:
+					variant_type="SVTYPE=INV"
+					var="<INV>"
+			elif not candidate["discs"] and abs(candidate["covM"]/library_stats["chr_cov"][chrA]-1) < 0.05:
+				if candidate["splitsINV"] > candidate["splits"]-candidate["splitsINV"]:
+					variant_type="SVTYPE=INV"
+					var="<INV>"
+			elif candidate["covM"]/library_stats["chr_cov"][chrA]-1 > 0.05:
+				variant_type="SVTYPE=DUP"
+				var="<DUP>"
+			elif candidate["covM"]/library_stats["chr_cov"][chrA]-1 < -0.05:
+				variant_type="SVTYPE=DEL"
+				var="<DEL>"		
+
+		elif candidate["discs"]:
 			if candidate["FF"] + candidate["RR"] > candidate["RF"] + candidate["FR"]:
 				variant_type="SVTYPE=INV"
 				var="<INV>"
 			elif library_stats["Orientation"] == "innie":
-				if candidate["covM"]/library_stats["chr_cov"][chrA] > (args.n+0.5)/args.n:
+				if candidate["covM"]/library_stats["chr_cov"][chrA] > (ploidy+0.5)/float(ploidy):
 					variant_type="SVTYPE=DUP"
 					var="<DUP>"
 					if candidate["RF"] > candidate["FR"]: 
 						variant_type="SVTYPE=TDUP"
 						var="<TDUP>"
-				elif candidate["covM"]/library_stats["chr_cov"][chrA] < (args.n-0.5)/args.n:
+				elif candidate["covM"]/library_stats["chr_cov"][chrA] < (ploidy-0.5)/float(ploidy):
 					variant_type="SVTYPE=DEL"
 					var="<DEL>"	
 
 			else:
-				if candidate["covM"]/library_stats["chr_cov"][chrA] > (args.n+0.5)/args.n:
+				if candidate["covM"]/library_stats["chr_cov"][chrA] > (ploidy+0.5)/float(ploidy):
 					variant_type="SVTYPE=DUP"
 					var="<DUP>"
 					if candidate["RF"] < candidate["FR"]: 
 						variant_type="SVTYPE=TDUP"
 						var="<TDUP>"
 
-				elif candidate["covM"]/library_stats["chr_cov"][chrA] < (args.n-0.5)/args.n:
+				elif candidate["covM"]/library_stats["chr_cov"][chrA] < (ploidy-0.5)/float(ploidy):
 					variant_type="SVTYPE=DEL"
 					var="<DEL>"
 		else:
 			if candidate["splitsINV"] > candidate["splits"]-candidate["splitsINV"]:
 				variant_type="SVTYPE=INV"
 				var="<INV>"
-			elif candidate["covM"]/library_stats["chr_cov"][chrA] > (args.n+0.5)/args.n:
+			elif candidate["covM"]/library_stats["chr_cov"][chrA] >(ploidy+0.5)/float(ploidy):
 					variant_type="SVTYPE=DUP"
 					var="<DUP>"
-			elif candidate["covM"]/library_stats["chr_cov"][chrA] < (args.n-0.5)/args.n:
+			elif candidate["covM"]/library_stats["chr_cov"][chrA] < (ploidy-0.5)/float(ploidy):
 					variant_type="SVTYPE=DEL"
 					var="<DEL>"		
 
@@ -406,9 +423,9 @@ def fetch_filter(chrA,chrB,candidate,args,library_stats):
 	else:
 		if candidate["e1"]*0.4 >= candidate["splits"]:
 			filt = "BelowExpectedLinks"
-	if library_stats["ploidies"][chrA] == 0:
+	if library_stats["ploidies"][chrA] == 0 or library_stats["ploidies"][chrB] == 0:
 		return("Ploidy")
-	if candidate["MaxcovA"] >= library_stats["chr_cov"][chrA]*(library_stats["ploidies"][chrA]+2) or candidate["MaxcovB"] >= library_stats["chr_cov"][chrA]*(library_stats["ploidies"][chrA]+2):
+	if candidate["MaxcovA"] >= library_stats["chr_cov"][chrA]*(library_stats["ploidies"][chrA]+2) or candidate["MaxcovB"] >= library_stats["chr_cov"][chrB]*(library_stats["ploidies"][chrB]+2):
 		filt = "UnexpectedCoverage"
 	elif candidate["discsA"] > (candidate["discs"]+candidate["splits"])*(1+library_stats["ploidies"][chrA]) or candidate["discsB"] > (candidate["discs"]+candidate["splits"])*(1+library_stats["ploidies"][chrA]):
 		filt= "FewLinks"
@@ -556,35 +573,44 @@ def determine_ploidy(args,chromosomes,coverage_data,Ncontent,sequence_length,lib
 	library_stats["chr_cov"]={}
 	ploidies={}
 	avg_coverage=[]
-	for chromosome in chromosomes:
+	cov=[]
+	for chromosome in chromosomes:		
 		try:
 			N_count=Ncontent[chromosome]
-			chromosomal_average=numpy.median(coverage_data[chromosome][numpy.where(N_count > 0),0])
-			avg_coverage.append( chromosomal_average )
+			chr_cov=coverage_data[chromosome][numpy.where( (N_count > 0) & (coverage_data[chromosome][:,1] > args.q)  ),0][0]
+			if len(chr_cov):
+				chromosomal_average=numpy.median(chr_cov)
+				cov+= list(chr_cov)
+			else:
+				chromosomal_average=0
 			library_stats["chr_cov"][chromosome]=chromosomal_average
 
 		except:
 			print "error: reference mismatch!"
 			print "make sure that the contigs of the bam file and the reference match"
 			quit()
 
-	coverage_norm=numpy.median(avg_coverage)
+	cov=numpy.array(cov)
+	if len(cov):
+		coverage_norm=numpy.median(cov)
+	else:
+		coverage_norm=1
 	coverage_data=gc_norm(args,coverage_norm,chromosomes,coverage_data,Ncontent)
 
 	chromosomal_average=0
 	outfile=open(args.o+".ploidy.tab", 'w')
 	outfile.write("Contig\tploidy_rounded\tploidy_raw\tmedian_coverage\n")
 	for chromosome in chromosomes:
 		N_count=Ncontent[chromosome]
-		chromosomal_average=numpy.median(coverage_data[chromosome][numpy.where( (N_count > -1) & ( (coverage_data[chromosome][:,1] > args.q) | (coverage_data[chromosome][:,1] == 0) ) ),0])
+		cov=coverage_data[chromosome][numpy.where( (N_count > -1) & ( (coverage_data[chromosome][:,1] > args.q) | (coverage_data[chromosome][:,1] == 0) ) ),0]
+		chromosomal_average=numpy.median(cov)
 		if not args.force_ploidy:
 			try:
 				ploidies[chromosome]=int(round((chromosomal_average)/coverage_norm*args.n))
 			except:
 				ploidies[chromosome]=args.n
 		else:
 			ploidies[chromosome]=args.n  
-
 		library_stats["chr_cov"][chromosome]=chromosomal_average
 		
 		outfile.write("{}\t{}\t{}\t{}\n".format(chromosome,ploidies[chromosome],round( library_stats["chr_cov"][chromosome]/coverage_norm*args.n,2),library_stats["chr_cov"][chromosome]))
diff --git a/src/TIDDIT.cpp b/src/TIDDIT.cpp
@@ -45,7 +45,7 @@ int main(int argc, char **argv) {
 	float insertStd;
 	int min_variant_size= 100;
 	string outputFileHeader ="output";
-	string version = "2.1.1";
+	string version = "2.2.1";
 	
 	//collect all options as a vector
 	vector<string> arguments(argv, argv + argc);