Ferlab-Ste-Justine · zoemcl · Jul 4, 2024 · Jul 4, 2024 · Jul 4, 2024
diff --git a/...-spark3/src/main/scala/bio/ferlab/datalake/spark3/transformation/HashTransformation.scala b/...-spark3/src/main/scala/bio/ferlab/datalake/spark3/transformation/HashTransformation.scala
@@ -4,7 +4,7 @@ import org.apache.spark.sql.Column
 import org.apache.spark.sql.functions.lit
 import org.apache.spark.sql.types.StringType
 
-trait HashTransformation extends Transformation {self =>
-  val columns: Seq[String]
+trait HashTransformation[A] extends Transformation {self =>
+  val columns: A
   val nullValues: Column = lit(null).cast(StringType)
 }
diff --git a/datalake-spark3/src/main/scala/bio/ferlab/datalake/spark3/transformation/PBKDF2.scala b/datalake-spark3/src/main/scala/bio/ferlab/datalake/spark3/transformation/PBKDF2.scala
@@ -17,7 +17,7 @@ import scala.language.postfixOps
  * @param keyLength length of the resulting hash
  * @param columns names of the columns to hash
  */
-case class PBKDF2(salt: String, iteration: Int, keyLength: Int, override val columns: String*) extends HashTransformation {
+case class PBKDF2(salt: String, iteration: Int, keyLength: Int, override val columns: String*) extends HashTransformation[Seq[String]] {
 
   override def transform: DataFrame => DataFrame = { df =>
 

diff --git a/datalake-spark3/src/main/scala/bio/ferlab/datalake/spark3/transformation/SHA1.scala b/datalake-spark3/src/main/scala/bio/ferlab/datalake/spark3/transformation/SHA1.scala
@@ -4,7 +4,7 @@ import org.apache.spark.sql.DataFrame
 import org.apache.spark.sql.functions._
 import org.apache.spark.sql.types.StringType
 
-case class SHA1(salt: String, override val columns: String*) extends HashTransformation {
+case class SHA1(salt: String, override val columns: String*) extends HashTransformation[Seq[String]] {
   override def transform: DataFrame => DataFrame = { df =>
     columns.foldLeft(df){ case (d, column) =>
       d.withColumn(column,

diff --git a/datalake-spark3/src/main/scala/bio/ferlab/datalake/spark3/transformation/SHA1Dynamic.scala b/datalake-spark3/src/main/scala/bio/ferlab/datalake/spark3/transformation/SHA1Dynamic.scala
@@ -0,0 +1,19 @@
+package bio.ferlab.datalake.spark3.transformation
+
+import org.apache.spark.sql.DataFrame
+import org.apache.spark.sql.functions.{col, concat_ws, lit, sha1, when}
+import org.apache.spark.sql.types.StringType
+
+case class SHA1Dynamic(salt: String, override val columns: DataFrame => Seq[String]) extends HashTransformation[DataFrame => Seq[String]] {
+
+  override def transform: DataFrame => DataFrame = { df =>
+    columns(df).foldLeft(df){ case (d, column) =>
+      d.withColumn(column,
+        when(col(column).isNull, nullValues)
+          .otherwise(
+            if(salt.nonEmpty) sha1(concat_ws("_", col(column).cast(StringType), lit(salt)))
+            else sha1(col(column).cast(StringType))
+          ))
+    }
+  }
+}
diff --git a/datalake-spark3/src/main/scala/bio/ferlab/datalake/spark3/transformation/SHA256.scala b/datalake-spark3/src/main/scala/bio/ferlab/datalake/spark3/transformation/SHA256.scala
@@ -4,7 +4,7 @@ import org.apache.spark.sql.DataFrame
 import org.apache.spark.sql.functions._
 import org.apache.spark.sql.types.StringType
 
-case class SHA256(salt: String, override val columns: String*) extends HashTransformation {
+case class SHA256(salt: String, override val columns: String*) extends HashTransformation[Seq[String]] {
   override def transform: DataFrame => DataFrame = { df =>
     columns.foldLeft(df){ case (d, column) =>
       d.withColumn(column,