PySparkでデータ読み込み
PySparkのデータ処理一覧 今回はdatabricksでtableとcsvと parquetと圧縮ファイルの gzファイルを読み込むコードの例を紹介します。 1. tableからデータ読み込む spark.table と spark.sqlでデータを読み込みます。 Pyspark df = spark.table(“list”) df.show() +—+—-+—+| id|name|age|+—+—-+—+| 1|Andy| 20|| 2|Jack| 31|| 3| Tom| 41|+—+—-+—+ Pyspark df = spark.sql(“select * from list”) df.show() +—+—-+—+| id|name|age|+—+—-+—+| 1|Andy| 20|| 2|Jack| 31|| 3| Tom| 41|+—+—-+—+ 2. csvファイルを読み込む spark.readでcsvファイルを読み込みます。 Pyspark 例1 df = (spark.read .option(“inferSchema”, “True”) …