Skip to content

Latest commit

 

History

History
260 lines (170 loc) · 12 KB

File metadata and controls

260 lines (170 loc) · 12 KB

4. データサイエンス概論


1. データサイエンスとは

  • データサイエンスは、科学的手法、プロセス、アルゴリズム、システムを駆使し、構造化と非構造化、 様々な形式のデータから知識や洞察を得る、超領域分野 。いわゆるモード2科学の一種。
  • 一般的に、データサイエンスは 3つの領域 から成り立っていると説明されることが多い。
  • 関連する分野がいくつかある。特に データエンジニアリングデータサイエンティスト に求められるスキルの1つとされている。

1.1. モード1 と モード2

モード1 と モード2

モード1 モード2
知的生産活動 専門分野に依拠した伝統的なもの 専門分野を超越 (超領域性)
生産される知識 個別科学の方法と手順にこだわって生産 問題発見と問題解決のコンテキストで生産 (応用の文脈)

1.2. データサイエンスの 3つの領域

  • コンピューターサイエンス
  • 数学・統計学
  • ドメイン知識・ビジネス知識

データサイエンスの 3つの領域

x y z xyz
コンピューターサイエンス 数学・統計学 - 機械学習
コンピューターサイエンス - ドメイン知識・ビジネス知識 ソフトウェア開発
- 数学・統計学 ドメイン知識・ビジネス知識 リサーチ
コンピューターサイエンス 数学・統計学 ドメイン知識・ビジネス知識 データサイエンス

1.3. データサイエンスの課題

人手不足。そのため、関連領域のプロがデータサイエンスを行うケースも多い。

1.4. データサイエンスの関連分野

  • データエンジニアリング
  • データアナリシス
  • データガバナンス
  • データセキュリティ

2. データサイエンスにおける登場人物

  • データサイエンスにおけるメインのプレイヤーは データサイエンティスト である。プロジェクトのライフサイクルの中で、必要に応じて他のプレイヤーとの連携を行う。
  • 最初データサイエンティスト1名で始めたチームは、データサイエンティスト、 ビジネスアナリストデータエンジニア の順でメンバーを追加していくことで、プロジェクトのライフサイクルに合った強化を行うことができる。
  • 要求次第では、データサイエンティストから 機械学習エンジニア にバトンタッチした方が良い場合もある。

2.1. データサイエンティスト

データサイエンティスト

2.2. ビジネスアナリスト

ビジネスアナリスト

2.3. データエンジニア

データエンジニア

2.4. 機械学習エンジニア

機械学習エンジニア


3. データサイエンスを支える技術

  • プログラミングによる調査検証環境データストア 、データへアクセスするための クエリ言語 が主な技術である。典型的なプロジェクトの開始時に用いられるミニマムなセットとしては、Python, scikit-learn, Jupyter
  • ツールはすべてオープンソースのものを利用可能であり、それをオンプレミスとクラウドのどちらの基盤で利用するかという選択がある。
  • プログラミング言語と機械学習/深層学習フレームワークは必須。それぞれいずれか1つ以上に関して、エキスパートレベルが求められる。ビッグデータ基盤,SQL,Excelについても、高度な経験が求められる。

データサイエンスを支える技術

3.1. 典型的な技術

3.1.1. 可視化

3.1.2. 計算実行環境

3.1.3. 機械学習フレームワーク

3.1.4. 深層学習フレームワーク

3.1.5. ラッパー

3.1.6. プログラミング言語

3.1.7. NoSQL

3.1.8. SQLデータベース

3.1.9. ビッグデータ基盤

3.1.10. スプレッドシート


4. データサイエンスのプロセス

  • 一般的に、データマイニングをはじめとするデータ分析プロセスにおいて、KDD (Knowledge Discovery in Databases) やEU発の標準化されたプロセスモデルとして CRISP-DM (Cross-industry standard process for data mining) が広く用いられている。
  • 2015年、IBMはCRISP-DMを刷新し拡張するものとして、ASUM (Analytics Solutions Unified Method) を発表。CRISP-DMに対して開発と運用の観点を加えた。
  • マイクロソフトはデータサイエンスに関する体系化された文書として Team Data Science Process Documentation を公開。その中でより発展的なプロセスモデル TDSP (Team Data Science Process) ライフサイクルを提示している。

CRISP-DM IBM ASUM Microsoft TDSP


5. データサイエンスのワークフロー

  • データサイエンス・プロジェクトは、分析と実装の2つのフェーズに分けることができる。主戦場は 分析フェーズ
  • 分析フェーズは1巡するのに 目安として概ね6〜21週間(1〜4ヶ月強) を要する。精度やその目標値によってはステップを戻す等をする必要があり、 期間や工数を見積ることは難しい (あくまでエンジニアリングではなくサイエンス)。
  • 全体としては目安として2〜10ヶ月。案件の性質から、データサイエンスというアプローチが妥当であるかどうかを検討し、妥当である場合は、 品質(精度)よりも時間とコストを優先して判断 をすることで、ステップを進めやすくなる。

データサイエンスのワークフロー