LearningJournal
diff --git a/Diff for: ‎04-SparkSchemaDemo/SparkSchemaDemo.py
+62 b/Diff for: ‎04-SparkSchemaDemo/SparkSchemaDemo.py
+62
diff --git a/Diff for: ‎04-SparkSchemaDemo/data/flight-time.csv
+470,478 b/Diff for: ‎04-SparkSchemaDemo/data/flight-time.csv
+470,478
diff --git a/Diff for: ‎04-SparkSchemaDemo/data/flight-time.json
+300,000 b/Diff for: ‎04-SparkSchemaDemo/data/flight-time.json
+300,000
diff --git a/Diff for: ‎04-SparkSchemaDemo/data/flight-time.parquet
4.77 MB b/Diff for: ‎04-SparkSchemaDemo/data/flight-time.parquet
4.77 MB
diff --git a/Diff for: ‎04-SparkSchemaDemo/lib/__init__.py b/Diff for: ‎04-SparkSchemaDemo/lib/__init__.py
diff --git a/Diff for: ‎04-SparkSchemaDemo/lib/logger.py
+21 b/Diff for: ‎04-SparkSchemaDemo/lib/logger.py
+21
diff --git a/Diff for: ‎04-SparkSchemaDemo/log4j.properties
+38 b/Diff for: ‎04-SparkSchemaDemo/log4j.properties
+38
@@ -0,0 +1,62 @@
+from pyspark.sql import SparkSession
+from pyspark.sql.types import StructType, StructField, DateType, StringType, IntegerType
+
+from lib.logger import Log4j
+
+if __name__ == "__main__":
+    spark = SparkSession \
+        .builder \
+        .master("local[3]") \
+        .appName("SparkSchemaDemo") \
+        .getOrCreate()
+
+    logger = Log4j(spark)
+
+    flightSchemaStruct = StructType([
+        StructField("FL_DATE", DateType()),
+        StructField("OP_CARRIER", StringType()),
+        StructField("OP_CARRIER_FL_NUM", IntegerType()),
+        StructField("ORIGIN", StringType()),
+        StructField("ORIGIN_CITY_NAME", StringType()),
+        StructField("DEST", StringType()),
+        StructField("DEST_CITY_NAME", StringType()),
+        StructField("CRS_DEP_TIME", IntegerType()),
+        StructField("DEP_TIME", IntegerType()),
+        StructField("WHEELS_ON", IntegerType()),
+        StructField("TAXI_IN", IntegerType()),
+        StructField("CRS_ARR_TIME", IntegerType()),
+        StructField("ARR_TIME", IntegerType()),
+        StructField("CANCELLED", IntegerType()),
+        StructField("DISTANCE", IntegerType())
+    ])
+
+    flightSchemaDDL = """FL_DATE DATE, OP_CARRIER STRING, OP_CARRIER_FL_NUM INT, ORIGIN STRING, 
+          ORIGIN_CITY_NAME STRING, DEST STRING, DEST_CITY_NAME STRING, CRS_DEP_TIME INT, DEP_TIME INT, 
+          WHEELS_ON INT, TAXI_IN INT, CRS_ARR_TIME INT, ARR_TIME INT, CANCELLED INT, DISTANCE INT"""
+
+    flightTimeCsvDF = spark.read \
+        .format("csv") \
+        .option("header", "true") \
+        .schema(flightSchemaStruct) \
+        .option("mode", "FAILFAST") \
+        .option("dateFormat", "M/d/y") \
+        .load("data/flight*.csv")
+
+    flightTimeCsvDF.show(5)
+    logger.info("CSV Schema:" + flightTimeCsvDF.schema.simpleString())
+
+    flightTimeJsonDF = spark.read \
+        .format("json") \
+        .schema(flightSchemaDDL) \
+        .option("dateFormat", "M/d/y") \
+        .load("data/flight*.json")
+
+    flightTimeJsonDF.show(5)
+    logger.info("JSON Schema:" + flightTimeJsonDF.schema.simpleString())
+
+    flightTimeParquetDF = spark.read \
+        .format("parquet") \
+        .load("data/flight*.parquet")
+
+    flightTimeParquetDF.show(5)
+    logger.info("Parquet Schema:" + flightTimeParquetDF.schema.simpleString())
@@ -0,0 +1,21 @@
+class Log4j:
+    def __init__(self, spark):
+        log4j = spark._jvm.org.apache.log4j
+
+        root_class = "guru.learningjournal.spark.examples"
+        conf = spark.sparkContext.getConf()
+        app_name = conf.get("spark.app.name")
+
+        self.logger = log4j.LogManager.getLogger(root_class + "." + app_name)
+
+    def warn(self, message):
+        self.logger.warn(message)
+
+    def info(self, message):
+        self.logger.info(message)
+
+    def error(self, message):
+        self.logger.error(message)
+
+    def debug(self, message):
+        self.logger.debug(message)
@@ -0,0 +1,38 @@
+# Set everything to be logged to the console
+log4j.rootCategory=WARN, console
+
+# define console appender
+log4j.appender.console=org.apache.log4j.ConsoleAppender
+log4j.appender.console.target=System.out
+log4j.appender.console.layout=org.apache.log4j.PatternLayout
+log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
+
+#application log
+log4j.logger.guru.learningjournal.spark.examples=INFO, console, file
+log4j.additivity.guru.learningjournal.spark.examples=false
+
+#define rolling file appender
+log4j.appender.file=org.apache.log4j.RollingFileAppender
+log4j.appender.file.File=${spark.yarn.app.container.log.dir}/${logfile.name}.log
+#define following in Java System
+# -Dlog4j.configuration=file:log4j.properties
+# -Dlogfile.name=hello-spark
+# -Dspark.yarn.app.container.log.dir=app-logs
+log4j.appender.file.ImmediateFlush=true
+log4j.appender.file.Append=false
+log4j.appender.file.MaxFileSize=500MB
+log4j.appender.file.MaxBackupIndex=2
+log4j.appender.file.layout=org.apache.log4j.PatternLayout
+log4j.appender.file.layout.conversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
+
+# Recommendations from Spark template
+log4j.logger.org.apache.spark.repl.Main=WARN
+log4j.logger.org.spark_project.jetty=WARN
+log4j.logger.org.spark_project.jetty.util.component.AbstractLifeCycle=ERROR
+log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO
+log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO
+log4j.logger.org.apache.parquet=ERROR
+log4j.logger.parquet=ERROR
+log4j.logger.org.apache.hadoop.hive.metastore.RetryingHMSHandler=FATAL
+log4j.logger.org.apache.hadoop.hive.ql.exec.FunctionRegistry=ERROR
+