PySparkでDataFrameに行を追加する方法
PySparkのデータ処理一覧 今回はDataFrameに行を追加する方法を説明します。前回と同じPython とPysparkで比較して色んな例を作成します。 1)DataFrameを作成します。 Python import pandas as pd import numpy as np pdf = pd.DataFrame(data={‘ColumnA’:np.linspace(1, 3, 3), ‘ColumnB’:[‘red’, ‘yellow’,’green’], ‘ColumnC’: np.array(1) }) pdf Pyspark data = [(1, ‘red’, 1), (2, ‘yellow’, 1), (3, ‘green’, 1)] sdf = sqlContext.createDataFrame(data, [“ColumnA”, “ColumnB”, “ColumnC”]) display(sdf) Out[1]: ColumnA ColumnB ColumnC 0 1.0 red 1 1 …