- 4. データサイエンス概論
- データサイエンスは、科学的手法、プロセス、アルゴリズム、システムを駆使し、構造化と非構造化、 様々な形式のデータから知識や洞察を得る、超領域分野 。いわゆるモード2科学の一種。
- 一般的に、データサイエンスは 3つの領域 から成り立っていると説明されることが多い。
- 関連する分野がいくつかある。特に データエンジニアリング は データサイエンティスト に求められるスキルの1つとされている。
モード1 | モード2 | |
---|---|---|
知的生産活動 | 専門分野に依拠した伝統的なもの | 専門分野を超越 (超領域性) |
生産される知識 | 個別科学の方法と手順にこだわって生産 | 問題発見と問題解決のコンテキストで生産 (応用の文脈) |
- コンピューターサイエンス
- 数学・統計学
- ドメイン知識・ビジネス知識
x | y | z | xyz |
---|---|---|---|
コンピューターサイエンス | 数学・統計学 | - | 機械学習 |
コンピューターサイエンス | - | ドメイン知識・ビジネス知識 | ソフトウェア開発 |
- | 数学・統計学 | ドメイン知識・ビジネス知識 | リサーチ |
コンピューターサイエンス | 数学・統計学 | ドメイン知識・ビジネス知識 | データサイエンス |
人手不足。そのため、関連領域のプロがデータサイエンスを行うケースも多い。
- データエンジニアリング
- データアナリシス
- データガバナンス
- データセキュリティ
- データサイエンスにおけるメインのプレイヤーは データサイエンティスト である。プロジェクトのライフサイクルの中で、必要に応じて他のプレイヤーとの連携を行う。
- 最初データサイエンティスト1名で始めたチームは、データサイエンティスト、 ビジネスアナリスト 、 データエンジニア の順でメンバーを追加していくことで、プロジェクトのライフサイクルに合った強化を行うことができる。
- 要求次第では、データサイエンティストから 機械学習エンジニア にバトンタッチした方が良い場合もある。
- プログラミングによる調査検証環境 、 データストア 、データへアクセスするための クエリ言語 が主な技術である。典型的なプロジェクトの開始時に用いられるミニマムなセットとしては、Python, scikit-learn, Jupyter。
- ツールはすべてオープンソースのものを利用可能であり、それをオンプレミスとクラウドのどちらの基盤で利用するかという選択がある。
- プログラミング言語と機械学習/深層学習フレームワークは必須。それぞれいずれか1つ以上に関して、エキスパートレベルが求められる。ビッグデータ基盤,SQL,Excelについても、高度な経験が求められる。
- 一般的に、データマイニングをはじめとするデータ分析プロセスにおいて、KDD (Knowledge Discovery in Databases) やEU発の標準化されたプロセスモデルとして CRISP-DM (Cross-industry standard process for data mining) が広く用いられている。
- 2015年、IBMはCRISP-DMを刷新し拡張するものとして、ASUM (Analytics Solutions Unified Method) を発表。CRISP-DMに対して開発と運用の観点を加えた。
- マイクロソフトはデータサイエンスに関する体系化された文書として Team Data Science Process Documentation を公開。その中でより発展的なプロセスモデル TDSP (Team Data Science Process) ライフサイクルを提示している。
- データサイエンス・プロジェクトは、分析と実装の2つのフェーズに分けることができる。主戦場は 分析フェーズ 。
- 分析フェーズは1巡するのに 目安として概ね6〜21週間(1〜4ヶ月強) を要する。精度やその目標値によってはステップを戻す等をする必要があり、 期間や工数を見積ることは難しい (あくまでエンジニアリングではなくサイエンス)。
- 全体としては目安として2〜10ヶ月。案件の性質から、データサイエンスというアプローチが妥当であるかどうかを検討し、妥当である場合は、 品質(精度)よりも時間とコストを優先して判断 をすることで、ステップを進めやすくなる。