データサイエンス100本ノック(構造化データ加工編)をpysparkでも行えるようにしました。書いていることは9割100本ノックのパクリです。
- Dockerfile(Dockerfile.pyspark)
- docker-compose.yml
- スーパーの架空購買データと架空個人情報(csv)
- Docker(Windows 10 proffesional Edition, macOS)
- Docker Toolbox(Windows 10 home edition)
- $ git clone git@gitlab.datumstudio.jp:y.mukai/practice-pyspark.git
- $ cd practice-pyspark
- $ docker-compose up -d --build
再起動はdocker-compose start
, 撤収はdocker-compose stop
, すべて消し飛ばすときはdocker-compose down
sparkが複数ポート必要なため100本ノックとはポートが違うので注意
-
Docker Desktopの場合 http://localhost:8890
-
Docker Toolboxの場合 http://192.168.99.100:8890
- work配下に設問notebookを配置
- work/data配下に使用したデータを配置
ユーザーホームディレクトリ配下以外にcloneする場合は別途dockerのファイル共有設定が必要です(詳しくは本家)。macで動くかは確認していないです。