復習のための機械学習問題集「Python機械学習プログラミング 達人データサイエンティストによる理論と実践」編

本記事では「Python機械学習プログラミング 達人データサイエンティストによる理論と実践」を読みながら筆者の頭を整理するための問題集を掲載する。筆者独自の考えなども混在している可能性はあるため詳しく内容を知りたい方は実際に書籍を購入して頂くのが良いです。

[第3版]Python機械学習プログラミング 達人データサイエンティストによる理論と実践【電子書籍】[ Sebastian Raschka ]価格:4,400円
(2022/7/10 21:56時点)
感想(0件)

第1章

構造化データはデータベースのテーブルやエクセルの表形式データのようにデータの形式や意味、データの関係性が定義されているデータ。

非構造化データは文章や音声、画像データのような構造化データ以外の総称

①教師あり学習

ラベル付けされた訓練データからモデルの学習を行う。モデルを使用することで未知のデータや将来のデータの予測ができるようになる。ポイントは望ましい結果が分かっているデータを訓練に用いる点。結果が離散値である教師あり学習は分類、連続データの場合は回帰と呼ぶ。

②教師なし学習
大量のデータから機械が各データの(特徴量の)類似性に基づきグルーピングする。このときデータに対してはラベル付けなどはされていない構造が不明な点が教師なしといわれる所以。次元削減にも応用される。

③強化学習
対象の環境からその状態を得るとともに,環境に対して実行した行動の結果から報酬が与えられることで、報酬を最大化するように学習させる手法。

実際に使用された文を大量に集めた例文集。スパムメールの分類問題では,ラベル付けされたメールが該当する。

2種類に分けることができるデータに対して入力データがどちらの種類に含まれるかを分類する機能を有するモデル。訓練データを陰性クラス、陽性クラスという二つにラベル付けして学習を行う。その学習により得られた決定境界を基に新しいデータを2つのクラスうちどちらかを判定できる。

離散的で順序性の無い値。訓練データの所属関係として解釈できる。

データの次元削減分野の一つ。機械学習においてはデータの圧縮やノイズ除去に利用される。データが多様体上に分布しているとして、多様体上における距離などに基づきデータの次元を削減する。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です