データサイエンスとは

データサイエンスとはデータからビジネスに有意義な洞察を導き出すための研究を指す
データサイエンスのプロセスは下記からなります
- O – Obtain データを収集する
- S – Scrub データを整形する
- E – Explore データを分析する
- M – Model 予測モデルを作成する
- I – iNterpret 結果を解釈する
O – Obtain データを収集する
データ収集のプロセスでは下記があります
- OracleやMySQLなどのデータベースからデータを集める
- WikipediaなどのWebサイトからデータを収集する
- 公開データセットを使用する
S – Scrub データを整形する
データ整形のプロセスでは下記を行います
- 欠損データの処理
- スペルミスの補正
- 外れ値の削除
前の工程で集めたデータは完ぺきとは限らず、欠損がある場合もある
Wikipediaから集めればスペルミスや誤字があるかもしれない
そのようなデータが大量に含まれていると正しく分析が行えないので欠損データを補完する、スペルミスを補正するなどしてデータを整形する必要がある
また、データが存在していても値が適正な範囲にないような値は除外する場合もある
E – Explore データを分析する
この工程ではデータを分析、可視化して法則性を見つける
その際に下記のようなツールを使用する
- pandas
- numpy
- matplot
M – Model 予測モデルを作成する
予測モデルを作成する
その際には下記のようなツールを使用する
- scikit-learn
- pytorch
- tensorflow
I – iNterpret 結果を解釈する
この工程では作成したモデルが利用可能かどうかを検討する
作成したモデルによる予測結果をわかりやすく図やグラフにまとめる
そのため、下記のようなツールを使用する
- matplot
- Tableau
- PowerBI
データサイエンスの実例



アイリスデータセットでは下記の特徴量から花の種類を予測します
- Sepal Length: がく片の長さ(cm)
- Sepal Width : がく片の幅(cm)
- Petal Length: 花びらの長さ(cm)
- Petal Width : 花びらの幅(cm)
O – Obtain データを収集する

scikit-learnのサンプルデータをロードする
S – Scrub データを整形する
サンプルデータは既に整形済みなのでとくにやることはない
E – Explore データを分析する

がく片の長さ、がく片の幅、花びらの長さ、花びらの幅をヒストグラムや散布図として表示し、データの傾向を確認する
M – Model 予測モデルを作成する

from sklearn import svmでSVMという機械学習アルゴリズムのライブラリをインポートする
データセットを学習と評価に分ける
modelを作成する
精度を算出する
I – iNterpret 結果を解釈する

誤認識したデータを赤点で表示
散布図を見るにこのデータはversicolorとvirginicaの境目に位置するようなデータであることがわかる
現在の特徴量ではこのデータを正しく分類するのは無理そう