Cannot successfully run q.14a.sql and q14b.sql when using double format for TPC-DS workload. #167

haojinIntel · 2021-03-17T07:51:52Z

Thriftserver log:
. . . . . . . . . . . . . . . .> Error: Error running query: org.apache.spark.SparkException: Job aborted due to stage failure: ShuffleMapStage 303 (run at AccessController.java:0) has failed the maximum allowable number of times: 4. Most recent failure reason: org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 82 at org.apache.spark.MapOutputTracker$.$anonfun$convertMapStatuses$2(MapOutputTracker.scala:1010) at org.apache.spark.MapOutputTracker$.$anonfun$convertMapStatuses$2$adapted(MapOutputTracker.scala:1006) at scala.collection.Iterator.foreach(Iterator.scala:941) at scala.collection.Iterator.foreach$(Iterator.scala:941) at scala.collection.AbstractIterator.foreach(Iterator.scala:1429) at org.apache.spark.MapOutputTracker$.convertMapStatuses(MapOutputTracker.scala:1006) at org.apache.spark.MapOutputTrackerWorker.getMapSizesByExecutorId(MapOutputTracker.scala:811) at org.apache.spark.shuffle.sort.ColumnarShuffleManager.getReader(ColumnarShuffleManager.scala:130) at org.apache.spark.sql.execution.ShuffledRowRDD.compute(ShuffledRowRDD.scala:185) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:349) at org.apache.spark.rdd.RDD.iterator(RDD.scala:313) at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:349) at org.apache.spark.rdd.RDD.iterator(RDD.scala:313) at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:349) at org.apache.spark.rdd.RDD.iterator(RDD.scala:313) at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:349) at org.apache.spark.rdd.RDD.iterator(RDD.scala:313) at org.apache.spark.rdd.ZippedPartitionsRDD2.compute(ZippedPartitionsRDD.scala:89) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:349) at org.apache.spark.rdd.RDD.iterator(RDD.scala:313) at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:349) at org.apache.spark.rdd.RDD.iterator(RDD.scala:313) at org.apache.spark.rdd.ZippedPartitionsRDD2.compute(ZippedPartitionsRDD.scala:89) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:349) at org.apache.spark.rdd.RDD.iterator(RDD.scala:313) at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:349) at org.apache.spark.rdd.RDD.iterator(RDD.scala:313) at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52) at

org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:349) at org.apache.spark.rdd.RDD.iterator(RDD.scala:313) at org.apache.spark.shuffle.ShuffleWriteProcessor.write(ShuffleWriteProcessor.scala:59) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:99) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:52) at org.apache.spark.scheduler.Task.run(Task.scala:127) at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:444) at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1377) at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:447) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) at java.lang.Thread.run(Thread.java:745) (state=,code=0)
Closing: 0: jdbc:hive2://bdpe-sky2:10000

hadoop containers log:
A fatal error has been detected by the Java Runtime Environment:

SIGSEGV (0xb) at pc=0x00007f284a527079, pid=139064, tid=0x00007f2850a21700

JRE version: Java(TM) SE Runtime Environment (8.0_112-b15) (build 1.8.0_112-b15)
Java VM: Java HotSpot(TM) 64-Bit Server VM (25.112-b15 mixed mode linux-amd64 compressed oops)
Problematic frame:
C [libspark_columnar_jni.so+0x71a079] HashRelation::AppendKeyColumn(std::shared_ptrarrow::Array, std::vector<std::shared_ptrsparkcolumnarplugin::precompile::UnsafeArray, std::allocator<std::shared_ptrsparkcolumnarplugin::precompile::UnsafeArray > > const&)+0x559

Failed to write core dump. Core dumps have been disabled. To enable core dumping, try "ulimit -c unlimited" before starting Java again

An error report file with more information is saved as:
/disk/0/data/nm/usercache/root/appcache/application_1615938242611_0002/container_1615938242611_0002_01_000015/hs_err_pid139064.log

If you would like to submit a bug report, please visit:
http://bugreport.java.com/bugreport/crash.jsp
The crash happened outside the Java Virtual Machine in native code.
See problematic frame for where to report the bug.

haojinIntel · 2021-03-17T07:54:19Z

@zhouyuan @zhixingheyi-tian
Please help to track the issue. Thanks.

xuechendi mentioned this issue Mar 24, 2021

[NSE-167]Fix q14a/b segfault #193

Merged

zhouyuan closed this as completed in #193 Mar 25, 2021

xuechendi mentioned this issue Mar 25, 2021

[NSE-167]Hashmap build opt for semi/anti/exists join #197

Merged

zhixingheyi-tian added the bug Something isn't working label Apr 27, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Cannot successfully run q.14a.sql and q14b.sql when using double format for TPC-DS workload. #167

Cannot successfully run q.14a.sql and q14b.sql when using double format for TPC-DS workload. #167

haojinIntel commented Mar 17, 2021

haojinIntel commented Mar 17, 2021

Cannot successfully run q.14a.sql and q14b.sql when using double format for TPC-DS workload. #167

Cannot successfully run q.14a.sql and q14b.sql when using double format for TPC-DS workload. #167

Comments

haojinIntel commented Mar 17, 2021

haojinIntel commented Mar 17, 2021