Importing directory of VCFs seems to fail #898

fnothaft · 2015-12-18T01:28:52Z

Reported by @almussel while trying to sort out some dbSNP input stuff:

Exception in thread "main" htsjdk.tribble.TribbleException: Input stream does not contain a BCF encoded file; BCF magic header info not found, at record 0 with position 0:
at htsjdk.variant.bcf2.BCF2Codec.error(BCF2Codec.java:492)
at htsjdk.variant.bcf2.BCF2Codec.readHeader(BCF2Codec.java:153)
at org.seqdoop.hadoop_bam.BCFSplitGuesser.<init>(BCFSplitGuesser.java:107)
at org.seqdoop.hadoop_bam.BCFSplitGuesser.<init>(BCFSplitGuesser.java:88)
at org.seqdoop.hadoop_bam.VCFInputFormat.addGuessedSplits(VCFInputFormat.java:254)
at org.seqdoop.hadoop_bam.VCFInputFormat.fixBCFSplits(VCFInputFormat.java:242)
at org.seqdoop.hadoop_bam.VCFInputFormat.getSplits(VCFInputFormat.java:221)
at org.apache.spark.rdd.NewHadoopRDD.getPartitions(NewHadoopRDD.scala:115)
at org.apache.spark.rdd.RDD$anonfun$partitions$2.apply(RDD.scala:239)
at org.apache.spark.rdd.RDD$anonfun$partitions$2.apply(RDD.scala:237)
at scala.Option.getOrElse(Option.scala:120)
at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)
at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)
at org.apache.spark.rdd.RDD$anonfun$partitions$2.apply(RDD.scala:239)
at org.apache.spark.rdd.RDD$anonfun$partitions$2.apply(RDD.scala:237)
at scala.Option.getOrElse(Option.scala:120)
at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)
at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)
at org.apache.spark.rdd.RDD$anonfun$partitions$2.apply(RDD.scala:239)
at org.apache.spark.rdd.RDD$anonfun$partitions$2.apply(RDD.scala:237)
at scala.Option.getOrElse(Option.scala:120)
at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)
at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)
at org.apache.spark.rdd.RDD$anonfun$partitions$2.apply(RDD.scala:239)
at org.apache.spark.rdd.RDD$anonfun$partitions$2.apply(RDD.scala:237)
at scala.Option.getOrElse(Option.scala:120)
at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)
at org.apache.spark.SparkContext.runJob(SparkContext.scala:1914)
at org.apache.spark.rdd.PairRDDFunctions$anonfun$saveAsNewAPIHadoopDataset$1.apply$mcV$sp(PairRDDFunctions.scala:1055)
at org.apache.spark.rdd.PairRDDFunctions$anonfun$saveAsNewAPIHadoopDataset$1.apply(PairRDDFunctions.scala:998)
at org.apache.spark.rdd.PairRDDFunctions$anonfun$saveAsNewAPIHadoopDataset$1.apply(PairRDDFunctions.scala:998)
at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:147)
at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:108)
at org.apache.spark.rdd.RDD.withScope(RDD.scala:310)
at org.apache.spark.rdd.PairRDDFunctions.saveAsNewAPIHadoopDataset(PairRDDFunctions.scala:998)
at org.apache.spark.rdd.PairRDDFunctions$anonfun$saveAsNewAPIHadoopFile$2.apply$mcV$sp(PairRDDFunctions.scala:938)
at org.apache.spark.rdd.PairRDDFunctions$anonfun$saveAsNewAPIHadoopFile$2.apply(PairRDDFunctions.scala:930)
at org.apache.spark.rdd.PairRDDFunctions$anonfun$saveAsNewAPIHadoopFile$2.apply(PairRDDFunctions.scala:930)
at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:147)
at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:108)
at org.apache.spark.rdd.RDD.withScope(RDD.scala:310)
at org.apache.spark.rdd.PairRDDFunctions.saveAsNewAPIHadoopFile(PairRDDFunctions.scala:930)
at org.apache.spark.rdd.InstrumentedPairRDDFunctions.saveAsNewAPIHadoopFile(InstrumentedPairRDDFunctions.scala:487)
at org.bdgenomics.adam.rdd.ADAMRDDFunctions$anonfun$adamParquetSave$1.apply$mcV$sp(ADAMRDDFunctions.scala:75)
at org.bdgenomics.adam.rdd.ADAMRDDFunctions$anonfun$adamParquetSave$1.apply(ADAMRDDFunctions.scala:60)
at org.bdgenomics.adam.rdd.ADAMRDDFunctions$anonfun$adamParquetSave$1.apply(ADAMRDDFunctions.scala:60)
at org.apache.spark.rdd.Timer.time(Timer.scala:57)
at org.bdgenomics.adam.rdd.ADAMRDDFunctions.adamParquetSave(ADAMRDDFunctions.scala:60)
at org.bdgenomics.adam.rdd.ADAMRDDFunctions.adamParquetSave(ADAMRDDFunctions.scala:46)
at org.bdgenomics.adam.cli.Vcf2ADAM.run(Vcf2ADAM.scala:79)
at org.bdgenomics.utils.cli.BDGSparkCommand$class.run(BDGCommand.scala:54)
at org.bdgenomics.adam.cli.Vcf2ADAM.run(Vcf2ADAM.scala:58)

The text was updated successfully, but these errors were encountered:

fnothaft · 2016-01-07T04:01:59Z

This is resolved; there was an error when copying the data over which led to some of the VCFs being headerless.

fnothaft closed this as completed Jan 7, 2016

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Importing directory of VCFs seems to fail #898

Importing directory of VCFs seems to fail #898

fnothaft commented Dec 18, 2015

fnothaft commented Jan 7, 2016

Importing directory of VCFs seems to fail #898

Importing directory of VCFs seems to fail #898

Comments

fnothaft commented Dec 18, 2015

fnothaft commented Jan 7, 2016