spark-bigquery-connector: Got java.lang.OutOfMemoryError: unable to create new native thread when use this connector to write data in BQ using spark streaming

2022-07-31T02:24:09.545954 Caused by: org.apache.spark.SparkException: Task failed while writing rows.
  at org.apache.spark.sql.execution.datasources.FileFormatWriter$.org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask(FileFormatWriter.scala:288)
  at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1.apply(FileFormatWriter.scala:198)
  at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$write$1.apply(FileFormatWriter.scala:197)
  at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
  at org.apache.spark.scheduler.Task.run(Task.scala:109)
  at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:345)	... 3 more
Caused by: java.lang.OutOfMemoryError: unable to create new native thread
  at java.lang.Thread.start0(Native Method)
  at java.lang.Thread.start(Thread.java:717)
  at java.util.concurrent.ThreadPoolExecutor.addWorker(ThreadPoolExecutor.java:957)
  at java.util.concurrent.ThreadPoolExecutor.execute(ThreadPoolExecutor.java:1367)
  at java.util.concurrent.AbstractExecutorService.submit(AbstractExecutorService.java:134)
  at com.google.cloud.hadoop.repackaged.gcs.com.google.cloud.hadoop.gcsio.BatchHelper.queue(BatchHelper.java:161)
  at com.google.cloud.hadoop.repackaged.gcs.com.google.cloud.hadoop.gcsio.GoogleCloudStorageImpl.getItemInfos(GoogleCloudStorageImpl.java:1687)
  at com.google.cloud.hadoop.repackaged.gcs.com.google.cloud.hadoop.gcsio.GoogleCloudStorageFileSystem.checkNoFilesConflictingWithDirs(GoogleCloudStorageFileSystem.java:1200)
  at com.google.cloud.hadoop.repackaged.gcs.com.google.cloud.hadoop.gcsio.GoogleCloudStorageFileSystem.create(GoogleCloudStorageFileSystem.java:251)
  at com.google.cloud.hadoop.fs.gcs.GoogleHadoopOutputStream.createChannel(GoogleHadoopOutputStream.java:78)
  at com.google.cloud.hadoop.fs.gcs.GoogleHadoopOutputStream.<init>(GoogleHadoopOutputStream.java:70)
  at com.google.cloud.hadoop.fs.gcs.GoogleHadoopSyncableOutputStream.<init>(GoogleHadoopSyncableOutputStream.java:180)
  at com.google.cloud.hadoop.fs.gcs.GoogleHadoopSyncableOutputStream.<init>(GoogleHadoopSyncableOutputStream.java:144)
  at com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase.create(GoogleHadoopFileSystemBase.java:632)
  at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:1067)
  at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:1048)
  at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:937)
  at org.apache.parquet.hadoop.ParquetFileWriter.<init>(ParquetFileWriter.java:241)
  at org.apache.parquet.hadoop.ParquetOutputFormat.getRecordWriter(ParquetOutputFormat.java:342)
  at org.apache.parquet.hadoop.ParquetOutputFormat.getRecordWriter(ParquetOutputFormat.java:302)
  at org.apache.spark.sql.execution.datasources.parquet.ParquetOutputWriter.<init>(ParquetOutputWriter.scala:37)
  at org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat$$anon$1.newInstance(ParquetFileFormat.scala:151)
  at org.apache.spark.sql.execution.datasources.FileFormatWriter$SingleDirectoryWriteTask.newOutputWriter(FileFormatWriter.scala:370)
  at org.apache.spark.sql.execution.datasources.FileFormatWriter$SingleDirectoryWriteTask.execute(FileFormatWriter.scala:381)
  at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask$3.apply(FileFormatWriter.scala:272)
  at org.apache.spark.sql.execution.datasources.FileFormatWriter$$anonfun$org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask$3.apply(FileFormatWriter.scala:270)
  at org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:1415)
  at org.apache.spark.sql.execution.datasources.FileFormatWriter$.org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask(FileFormatWriter.scala:275)	... 8 more

About this issue

Original URL
State: closed
Created 2 years ago
Comments: 22 (6 by maintainers)

Commits related to this issue

Issue #723: Making sure the BigQuery Storage clients are closed (#832) — committed to GoogleCloudDataproc/spark-bigquery-connector by davidrabinowitz 2 years ago

Most upvoted comments

Thanks fro the info - it means that the change has occurred in gax-java between version 2.13.0 and 2.17.0. We’ll try to narrow it down

davidrabinowitz on Nov 21, 2022

Please follow PR #951, we had to fix some of the underlying client libraries first

davidrabinowitz on Apr 19, 2023

Just a quick note: we’re seeing this problem still with 0.27.1.

asnare on Nov 29, 2022