Skip to content

ugmuka/practice-pyspark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 

Repository files navigation

ここはなに

データサイエンス100本ノック(構造化データ加工編)をpysparkでも行えるようにしました。書いていることは9割100本ノックのパクリです。

Description

  • Dockerfile(Dockerfile.pyspark)
  • docker-compose.yml
  • スーパーの架空購買データと架空個人情報(csv)

Requirement

  • Docker(Windows 10 proffesional Edition, macOS)
  • Docker Toolbox(Windows 10 home edition)

Install

再起動はdocker-compose start, 撤収はdocker-compose stop, すべて消し飛ばすときはdocker-compose down

Usage

sparkが複数ポート必要なため100本ノックとはポートが違うので注意

Document

  • work配下に設問notebookを配置
  • work/data配下に使用したデータを配置

ユーザーホームディレクトリ配下以外にcloneする場合は別途dockerのファイル共有設定が必要です(詳しくは本家)。macで動くかは確認していないです。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published