broadinstitute · tomwhite · May 1, 2019 · Apr 30, 2019 · May 1, 2019 · jamesemery
diff --git a/src/main/java/org/broadinstitute/hellbender/engine/spark/datasources/VariantsSparkSink.java b/src/main/java/org/broadinstitute/hellbender/engine/spark/datasources/VariantsSparkSink.java
@@ -36,7 +36,7 @@ public final class VariantsSparkSink {
     public static void writeVariants(
             final JavaSparkContext ctx, final String outputFile, final JavaRDD<VariantContext> variants,
             final VCFHeader header) throws IOException {
-        writeVariants(ctx, outputFile, variants, header, false, null, 0, 0, true);
+        writeVariants(ctx, outputFile, variants, header, false, null, 0, 0, true, true);
     }
 
     /**
@@ -51,13 +51,19 @@ public static void writeVariants(
     public static void writeVariants(
             final JavaSparkContext ctx, final String outputFile, final JavaRDD<VariantContext> variants,
             final VCFHeader header, final boolean writeTabixIndex) throws IOException {
-        writeVariants(ctx, outputFile, variants, header, false, null, 0, 0, writeTabixIndex);
+        writeVariants(ctx, outputFile, variants, header, writeTabixIndex, true);
+    }
+
+    public static void writeVariants(
+            final JavaSparkContext ctx, final String outputFile, final JavaRDD<VariantContext> variants,
+            final VCFHeader header, final boolean writeTabixIndex, final boolean sort) throws IOException {
+        writeVariants(ctx, outputFile, variants, header, false, null, 0, 0, writeTabixIndex, true);
     }
 
     public static void writeVariants(
             final JavaSparkContext ctx, final String outputFile, final JavaRDD<VariantContext> variants,
             final VCFHeader header, final boolean writeGvcf, final List<Number> gqPartitions, final int defaultPloidy) throws IOException {
-        writeVariants(ctx, outputFile, variants, header, writeGvcf, gqPartitions, defaultPloidy, 0, true);
+        writeVariants(ctx, outputFile, variants, header, writeGvcf, gqPartitions, defaultPloidy, 0, true, true);
     }
 
     /**
@@ -74,21 +80,21 @@ public static void writeVariants(
     public static void writeVariants(
             final JavaSparkContext ctx, final String outputFile, final JavaRDD<VariantContext> variants,
             final VCFHeader header, final boolean writeGvcf, final List<Number> gqPartitions, final int defaultPloidy,
-            final int numReducers, final boolean writeTabixIndex) throws IOException {
+            final int numReducers, final boolean writeTabixIndex, final boolean sort) throws IOException {
         String absoluteOutputFile = BucketUtils.makeFilePathAbsolute(outputFile);
-        writeVariantsSingle(ctx, absoluteOutputFile, variants, header, writeGvcf, gqPartitions, defaultPloidy, numReducers, writeTabixIndex);
+        writeVariantsSingle(ctx, absoluteOutputFile, variants, header, writeGvcf, gqPartitions, defaultPloidy, numReducers, writeTabixIndex, sort);
     }
 
     private static void writeVariantsSingle(
             final JavaSparkContext ctx, final String outputFile, final JavaRDD<VariantContext> variants,
             final VCFHeader header, final boolean writeGvcf, final List<Number> gqPartitions, final int defaultPloidy,
-            final int numReducers, final boolean writeTabixIndex) throws IOException {
+            final int numReducers, final boolean writeTabixIndex, final boolean sortVariantsToHeader) throws IOException {
 
         //TODO remove me when https://github.com/broadinstitute/gatk/issues/4303 is fixed
         if (outputFile.endsWith(IOUtil.BCF_FILE_EXTENSION) || outputFile.endsWith(IOUtil.BCF_FILE_EXTENSION + ".gz")) {
             throw new UserException.UnimplementedFeature("It is currently not possible to write a BCF file on spark.  See https://github.com/broadinstitute/gatk/issues/4303 for more details .");
         }
-        final JavaRDD<VariantContext> sortedVariants = sortVariants(variants, header, numReducers);
+        final JavaRDD<VariantContext> sortedVariants = sortVariantsToHeader ? sortVariants(variants, header, numReducers) : variants;
         final JavaRDD<VariantContext> variantsToSave;
         if (writeGvcf) {
             GVCFBlockCombiner gvcfBlockCombiner = new GVCFBlockCombiner(gqPartitions, defaultPloidy);

diff --git a/src/main/java/org/broadinstitute/hellbender/tools/HaplotypeCallerSpark.java b/src/main/java/org/broadinstitute/hellbender/tools/HaplotypeCallerSpark.java
@@ -184,11 +184,10 @@ private static void processAssemblyRegions(
 
         final JavaRDD<VariantContext> variants = rdd.mapPartitions(assemblyFunction(header, referenceFileName, hcArgsBroadcast, annotatorEngineBroadcast));
 
-        variants.cache(); // without caching, computations are run twice as a side effect of finding partition boundaries for sorting
         try {
             VariantsSparkSink.writeVariants(ctx, output, variants, hcEngine.makeVCFHeader(header.getSequenceDictionary(), new HashSet<>()),
                     hcArgs.emitReferenceConfidence == ReferenceConfidenceMode.GVCF, new ArrayList<Number>(hcArgs.GVCFGQBands), hcArgs.standardArgs.genotypeArgs.samplePloidy,
-                    0, createOutputVariantIndex);
+                    0, createOutputVariantIndex, false);
         } catch (IOException e) {
             throw new UserException.CouldNotCreateOutputFile(output, "writing failed", e);
         }

diff --git a/src/main/java/org/broadinstitute/hellbender/tools/spark/pipelines/PrintVariantsSpark.java b/src/main/java/org/broadinstitute/hellbender/tools/spark/pipelines/PrintVariantsSpark.java
@@ -58,7 +58,7 @@ public final class PrintVariantsSpark extends VariantWalkerSpark {
     protected void processVariants(JavaRDD<VariantWalkerContext> rdd, JavaSparkContext ctx) {
         try {
             VariantsSparkSink.writeVariants(ctx, output, rdd.map(VariantWalkerContext::getVariant), getHeaderForVariants(),
-                    createOutputVariantIndex);
+                    createOutputVariantIndex, false);
         } catch (IOException e) {
             throw new UserException.CouldNotCreateOutputFile(output, "writing failed", e);
         }

diff --git a/...ava/org/broadinstitute/hellbender/engine/spark/datasources/VariantsSparkSinkUnitTest.java b/...ava/org/broadinstitute/hellbender/engine/spark/datasources/VariantsSparkSinkUnitTest.java
@@ -115,7 +115,7 @@ public static Object[][] brokenCases() {
     public void testBrokenGVCFCasesAreDisallowed(boolean writeGvcf, String extension) throws IOException {
         JavaSparkContext ctx = SparkContextFactory.getTestSparkContext();
         VariantsSparkSink.writeVariants(ctx, createTempFile("test", extension).toString(), null,
-                new VCFHeader(), writeGvcf, Arrays.asList(1, 2, 4, 5), 2, 1, false);
+                new VCFHeader(), writeGvcf, Arrays.asList(1, 2, 4, 5), 2, 1, false, false);
     }
 
     @DataProvider
@@ -142,7 +142,7 @@ public void testEnableDisableGVCFWriting(boolean writeGvcf, String extension) th
 
         final JavaSparkContext ctx = SparkContextFactory.getTestSparkContext();
         final File output = createTempFile(outputFileName, extension);
-        VariantsSparkSink.writeVariants(ctx, output.toString(), ctx.parallelize(vcs), getHeader(), writeGvcf, Arrays.asList(100), 2, 1, true);
+        VariantsSparkSink.writeVariants(ctx, output.toString(), ctx.parallelize(vcs), getHeader(), writeGvcf, Arrays.asList(100), 2, 1, true, true);
 
         checkFileExtensionConsistentWithContents(output.toString(), true);