4. データサイエンス概論

4. データサイエンス概論

1. データサイエンスとは

データサイエンスは、科学的手法、プロセス、アルゴリズム、システムを駆使し、構造化と非構造化、 様々な形式のデータから知識や洞察を得る、超領域分野 。いわゆるモード2科学の一種。
一般的に、データサイエンスは 3つの領域 から成り立っていると説明されることが多い。
関連する分野がいくつかある。特に データエンジニアリング は データサイエンティスト に求められるスキルの1つとされている。

1.1. モード1 とモード2

	モード1	モード2
知的生産活動	専門分野に依拠した伝統的なもの	専門分野を超越 (超領域性)
生産される知識	個別科学の方法と手順にこだわって生産	問題発見と問題解決のコンテキストで生産 (応用の文脈)

1.2. データサイエンスの 3つの領域

コンピューターサイエンス
数学・統計学
ドメイン知識・ビジネス知識

x	y	z	xyz
コンピューターサイエンス	数学・統計学	-	機械学習
コンピューターサイエンス	-	ドメイン知識・ビジネス知識	ソフトウェア開発
-	数学・統計学	ドメイン知識・ビジネス知識	リサーチ
コンピューターサイエンス	数学・統計学	ドメイン知識・ビジネス知識	データサイエンス

1.3. データサイエンスの課題

人手不足。そのため、関連領域のプロがデータサイエンスを行うケースも多い。

1.4. データサイエンスの関連分野

データエンジニアリング
データアナリシス
データガバナンス
データセキュリティ

2. データサイエンスにおける登場人物

データサイエンスにおけるメインのプレイヤーは データサイエンティスト である。プロジェクトのライフサイクルの中で、必要に応じて他のプレイヤーとの連携を行う。
最初データサイエンティスト1名で始めたチームは、データサイエンティスト、 ビジネスアナリスト 、 データエンジニア の順でメンバーを追加していくことで、プロジェクトのライフサイクルに合った強化を行うことができる。
要求次第では、データサイエンティストから 機械学習エンジニア にバトンタッチした方が良い場合もある。

2.1. データサイエンティスト

2.2. ビジネスアナリスト

2.3. データエンジニア

2.4. 機械学習エンジニア

3. データサイエンスを支える技術

プログラミングによる調査検証環境 、 データストア 、データへアクセスするための クエリ言語 が主な技術である。典型的なプロジェクトの開始時に用いられるミニマムなセットとしては、Python, scikit-learn, Jupyter。
ツールはすべてオープンソースのものを利用可能であり、それをオンプレミスとクラウドのどちらの基盤で利用するかという選択がある。
プログラミング言語と機械学習/深層学習フレームワークは必須。それぞれいずれか1つ以上に関して、エキスパートレベルが求められる。ビッグデータ基盤，SQL，Excelについても、高度な経験が求められる。

3.1. 典型的な技術

3.1.1. 可視化

matplotlib
Seaborn

3.1.2. 計算実行環境

Jupyter
JupyterLab

3.1.3. 機械学習フレームワーク

scikit-learn
Spark MLlib

3.1.4. 深層学習フレームワーク

TensorFlow
PyTorch
Chainer
Apache MXNet

3.1.5. ラッパー

Keras

3.1.6. プログラミング言語

Python
R
Julia
Matlab
Scala
Java

3.1.7. NoSQL

Redis

3.1.8. SQLデータベース

PostgreSQL

3.1.9. ビッグデータ基盤

Apache Hadoop
Apache Spark

3.1.10. スプレッドシート

Excel

4. データサイエンスのプロセス

一般的に、データマイニングをはじめとするデータ分析プロセスにおいて、KDD (Knowledge Discovery in Databases) やEU発の標準化されたプロセスモデルとして CRISP-DM (Cross-industry standard process for data mining) が広く用いられている。
2015年、IBMはCRISP-DMを刷新し拡張するものとして、ASUM (Analytics Solutions Unified Method) を発表。CRISP-DMに対して開発と運用の観点を加えた。
マイクロソフトはデータサイエンスに関する体系化された文書として Team Data Science Process Documentation を公開。その中でより発展的なプロセスモデル TDSP (Team Data Science Process) ライフサイクルを提示している。

5. データサイエンスのワークフロー

データサイエンス・プロジェクトは、分析と実装の2つのフェーズに分けることができる。主戦場は 分析フェーズ 。
分析フェーズは1巡するのに 目安として概ね6〜21週間（1〜4ヶ月強） を要する。精度やその目標値によってはステップを戻す等をする必要があり、 期間や工数を見積ることは難しい （あくまでエンジニアリングではなくサイエンス）。
全体としては目安として2〜10ヶ月。案件の性質から、データサイエンスというアプローチが妥当であるかどうかを検討し、妥当である場合は、 品質（精度）よりも時間とコストを優先して判断 をすることで、ステップを進めやすくなる。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

4. データサイエンス概論

1. データサイエンスとは

1.1. モード1 とモード2

1.2. データサイエンスの 3つの領域

1.3. データサイエンスの課題

1.4. データサイエンスの関連分野

2. データサイエンスにおける登場人物

2.1. データサイエンティスト

2.2. ビジネスアナリスト

2.3. データエンジニア

2.4. 機械学習エンジニア

3. データサイエンスを支える技術

3.1. 典型的な技術

3.1.1. 可視化

3.1.2. 計算実行環境

3.1.3. 機械学習フレームワーク

3.1.4. 深層学習フレームワーク

3.1.5. ラッパー

3.1.6. プログラミング言語

3.1.7. NoSQL

3.1.8. SQLデータベース

3.1.9. ビッグデータ基盤

3.1.10. スプレッドシート

4. データサイエンスのプロセス

5. データサイエンスのワークフロー

Files

README.md

Latest commit

History

README.md

File metadata and controls

4. データサイエンス概論

1. データサイエンスとは

1.1. モード1 と モード2

1.2. データサイエンスの 3つの領域

1.3. データサイエンスの課題

1.4. データサイエンスの関連分野

2. データサイエンスにおける登場人物

2.1. データサイエンティスト

2.2. ビジネスアナリスト

2.3. データエンジニア

2.4. 機械学習エンジニア

3. データサイエンスを支える技術

3.1. 典型的な技術

3.1.1. 可視化

3.1.2. 計算実行環境

3.1.3. 機械学習フレームワーク

3.1.4. 深層学習フレームワーク

3.1.5. ラッパー

3.1.6. プログラミング言語

3.1.7. NoSQL

3.1.8. SQLデータベース

3.1.9. ビッグデータ基盤

3.1.10. スプレッドシート

4. データサイエンスのプロセス

5. データサイエンスのワークフロー

1.1. モード1 とモード2