ここはなに

データサイエンス100本ノック（構造化データ加工編）をpysparkでも行えるようにしました。書いていることは9割100本ノックのパクリです。

Description

Dockerfile(Dockerfile.pyspark)
docker-compose.yml
スーパーの架空購買データと架空個人情報(csv)

Requirement

Docker(Windows 10 proffesional Edition, macOS)
Docker Toolbox(Windows 10 home edition)

Install

$ git clone git@gitlab.datumstudio.jp:y.mukai/practice-pyspark.git
$ cd practice-pyspark
$ docker-compose up -d --build

再起動はdocker-compose start, 撤収はdocker-compose stop, すべて消し飛ばすときはdocker-compose down

Usage

sparkが複数ポート必要なため100本ノックとはポートが違うので注意

Docker Desktopの場合 http://localhost:8890
Docker Toolboxの場合 http://192.168.99.100:8890

Document

work配下に設問notebookを配置
work/data配下に使用したデータを配置

ユーザーホームディレクトリ配下以外にcloneする場合は別途dockerのファイル共有設定が必要です(詳しくは本家)。macで動くかは確認していないです。

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
docker/work		docker/work
Dockerfile.pyspark		Dockerfile.pyspark
README.md		README.md
docker-compose.yml		docker-compose.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ここはなに

Description

Requirement

Install

Usage

Document

About

Releases

Packages

Languages

ugmuka/practice-pyspark

Folders and files

Latest commit

History

Repository files navigation

ここはなに

Description

Requirement

Install

Usage

Document

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages