適用されたAI戦略とコンサルティング|InnoArchiTech
このシリーズの記事
-
概要、モデルのパフォーマンスとエラー分析
-
教師なし学習、関連分野、および実際の機械学習
はじめに
ようこそ! これは、機械学習に関する5つのシリーズの最初の記事です。
機械学習は、多くの重要な理由から非常にホットなトピックであり、明示的なプログラミング命令を必要とせずに、深い洞察を自動的に取得し、未知のパターンを認識し、データから高性能な予測モデルを作成する機能を提供するためです。
主題の人気にもかかわらず、機械学習の真の目的と詳細は、非常に技術的な人々および/またはデータ科学者を除いて、よく理解されていません。
このシリーズは、機械学習の包括的で詳細なガイドであることを意図しており、ビジネスエグゼクティブから機械学習の実践者にすべての人に役立 これは、機械学習のほぼすべての側面(および多くの関連分野)を高いレベルでカバーし、その分野の用語、概念、ツール、考慮事項、および技術への十分な導入ま
機械学習の使用に関する意思決定プロセス、ビジネスやプロジェクトの目標の達成にどのように役立つか、どの機械学習技術を使用すべきか、潜在的な落とし穴、結果の解釈方法に関与している場合、この高レベルの理解は非常に重要です。
このシリーズで説明するトピックのほとんどは、予測分析、データマイニング、統計学習、人工知能などの分野にも直接適用できることに注意してくださ
Machine Learning Defined
フィールドパイオニアTom M.Mitchellによって述べられているように、機械学習のoft引用され、広く受け入れられている正式な定義は次のとおりです。
コンピュータプログラムは、tのタスクでのパフォーマンスがpによって測定されるように、経験Eとともに改善される場合、タスクTおよびパフォーマンス測定Pのいくつかのクラスに関して経験Eから学ぶと言われています。
iv id=”以下は、機械学習を記述するための私のあまり正式な方法です。機械学習は、コンピュータサイエンスのサブフィールドですが、多くの場合、予測分析、または予測モデリングとも呼ばれています。
機械学習は、コンピ その目的と使用法は、正確な予測を与える一般化可能なモデルを構築するために、または特に新しく目に見えない類似のデータを使用してパターンを見
機械学習プロセスの概要
行は各観測値(別名測定、データポイントなど)であり、各観測値の列はその観測値の特徴とその値を表しています。
機械学習プロジェクトの開始時に、データセットは通常、二つまたは三つのサブセットに分割されます。 最小のサブセットはトレーニングデータセットとテストデータセットであり、多くの場合、オプションの第三の検証データセットも作成されます。
これらのデータサブセットがプライマリデータセットから作成されると、学習データを使用して予測モデルまたは分類器が学習され、テストデータを使用してモデルの予測精度が決定されます。
前述のように、機械学習はアルゴリズムを活用して、通常は目標の出力または応答を予測することを目的として、データ内のパターンを自動的にモデ これらのアルゴリズムは、統計と数学的最適化に大きく基づいています。最適化は、関数の最小値または最大値(最小値または最大値)を求めるプロセスであり、しばしば損失または最小化の場合のコスト関数と呼ばれます。
機械学習で使用される最も一般的な最適化アルゴリズムの1つは勾配降下法と呼ばれ、もう1つは正規方程式として知られています。簡単に言えば、機械学習は、学習アルゴリズムと最適化技術を活用して、高精度の予測モデルまたは分類モデルを自動的に学習したり、データ内の未知のパターンを見つけたりすることです。
学習の種類
機械学習の主なカテゴリは、教師あり、教師なし、および半教師あり学習です。 この記事では、最初の2つに焦点を当てます。教師あり学習では、データにはモデル化される応答変数(ラベル)が含まれており、目に見えないデータの値またはクラスを予測することが目標です。 教師なし学習には、ラベルや応答変数を持たないデータセットからの学習が含まれるため、予測よりもパターンの検出に重点が置かれます。私は巨大なNFLとシカゴベアーズのファンだとして、私のチームは、学習のこれらのタイプを例示するのに役立ちます!
チームがNFLの公認メンバーになったとき(1920年)から現在(2016年)までのシカゴ・ベアーズのデータと統計が大量にあるとします。データの各行は、本質的に1920年以降のすべてのゲームの関連統計のチームスナップショット(または観測)であると想像してください。
データの各行は、1920年以降の各ゲームの関連統計のチームスナップショット(または観測)であるとします。 この場合の列、およびそれぞれに含まれるデータは、データの特徴(値)を表し、ゲームの日付、ゲームの対戦相手、シーズンの勝利、シーズンの損失、シーズン終了部門の位置、ポストシーズンバース(Y/N)、ポストシーズンの統計、およびおそらくゲームの三段階に固有の統計(オフェンス、ディフェンス、および特別チーム)を含むことができる。
監督されたケースでは、あなたの目標は、クマが特定のゲーム中に、特定のフィールド(ホームまたはアウェー)で特定のチームに対して勝つか負けるかを予測するた サッカーでは、試合前や試合時間の怪我、気象条件、悪い審判の呼び出しなどの点で何かが起こる可能性があることに注意してください。
特定のサッカー場の特定のチームに対する勝敗(応答)の履歴データがあるため、教師あり学習を活用してその予測を行うモデルを作成できます。
ここで、履歴データのパターンを見つけて、まだ知らないことを学ぶか、履歴全体で特定の方法でチームをグループ化することが目標であるとします。 これを行うには、データを自動的にクラスター化(グループ化)する教師なし機械学習アルゴリズムを実行し、クラスタリング結果を分析します。
少し分析すると、これらの自動的に生成されたクラスターは、時間の経過とともにチームを次の例のカテゴリにグループ化しているように見える:
強い防衛、弱い実行中の攻撃、強い通過攻撃、弱い特別チーム、プレーオフバース
強い防衛、強い実行中の攻撃、弱い通過攻撃、平均特別チーム、プレイオフバース
弱い防衛、強いオールラウンドオフェンス、強い特別チームは、プレーオフを逃しました
というように
p>教師なしクラスター分析の例は、上記の第三のクラスターでプレーオフを逃した潜在的な理由を見つけることです。 おそらく弱い防衛のために? ベアーズは伝統的に強力な守備チームであり、いくつかは防衛が選手権を獲得すると言います。 どちらの場合も、上記の分類のそれぞれは、予想される特定の時間枠に関連していることがわかります。 おそらく、チームは、彼らの歴史の中で、そして異なる期間の間、これらのグループの一つによって複数回特徴付けられました。
機械学習技術なしでこのようにチームを特徴付けるには、すべての履歴データと統計を注ぎ、手動でパターンを見つけて、すべてのデータを考慮して毎年の分類(クラスター)を割り当て、情報をコンパイルする必要があります。 それは間違いなく迅速かつ簡単な作業ではありません。また、データを流し込むために明示的にコード化されたプログラムを書くこともでき、どのチーム統計を考慮するか、各統計に考慮するしきい値などを知 コードを書くのにかなりの時間がかかり、答えを必要とするすべての問題に対して異なるプログラムを書く必要があります。または…機械学習アルゴリズムを使用して、数秒でこれをすべて自動的に行うことができます。
機械学習の目標と出力
機械学習アルゴリズムは、主に次のタイプの出力に使用されます。
クラスタリング(教師なし)
二クラス (Supervised)
異常検出(教師なしおよび教師あり)
推奨システム(別名recommendation engine)
各出力タイプに使用される特定のアルゴリズムについては、次のセクシ議論されているように、クラスタリングは、与えられたデータセットの構成と構造を発見するための教師なし技術です。 これは、もしあれば、どのグループが出現するかを確認するために、データをクラスターに凝集させるプロセスです。 各クラスターは、含まれているデータポイントのセットとクラスター重心によって特徴付けられます。 クラスターの重心は、基本的には、クラスターに含まれるすべてのデータポイントの平均(平均)であり、すべてのフィーチャにまたがっています。分類の問題には、データポイント(別名観測)を事前定義されたクラスまたはカテゴリに配置することが含まれます。
分類の問題には、データポイント(別名 分類問題では、単に観測値にクラスを割り当てることもあれば、観測値が与えられた各クラスに属する確率を推定することが目的である場合もあ
二つのクラスの分類の良い例は、スパムまたはHamのクラスを受信メールに割り当てることです。 複数クラスの分類は、2つ以上の可能なクラスを意味します。 したがって、スパムの例では、おそらく第三のクラスは’Unknown’になります。回帰は、離散クラスとは対照的に、モデルがデータ観測に連続値(応答)を割り当てることを言うための単なる空想の言葉です。
回帰は、モデルが連続値(応答) これの良い例は、任意の日にダウ-ジョーンズ工業平均の終値を予測することです。 この値は任意の数値である可能性があるため、回帰の完全な候補になります。
実際に分類問題に使用されるアルゴリズムの名前や、離散的なカテゴリ応答(スパムやハムなど)を予測するために使用されることがあります。 良い例は、与えられた離散値の確率を予測するロジスティック回帰です。別の問題の種類は異常検出です。
私たちは、データが行儀よく、賢明であると考えたいのですが、残念ながらこれはしばしばそうではありません。 測定の誤動作やエラー、または詐欺による誤ったデータポイントがあることがあります。 他の時には、異常な測定がハードウェアや電子機器の故障を示している可能性があります。
異常は実際の問題を示すものであり、製造上の欠陥など容易に説明されないことがあり、この場合、異常を検出することは、品質管理の尺度だけでなく、欠陥を減らすために取られた手順が機能したかどうかについての洞察を提供する。 いずれの場合も、これらの異常値を見つけることが有益な場合があり、特定の機械学習アルゴリズムを使用してそれを行うことができます。
最終的なタイプの問題は、推奨システム、または推奨エンジンとも呼ばれます。 レコメンデーションシステムは、情報フィルタリングシステムの一種であり、映画、音楽、書籍、レストラン、記事、製品など、多くのアプリケーションでレコメンデー 最も一般的な2つのアプローチは、コンテンツベースのフィルタリングと共同フィルタリングです。
人気のある推奨エンジンの二つの偉大な例は、NetflixとAmazonによって提供されるものです。 Netflixは視聴者が視聴するコンテンツをたくさん提供し、従事し続けるために推奨を行います。 言い換えれば、Netflixのを使用して人々を維持するために。 彼らは彼らの”あなたが見たので…”、”アレックスのためのトップピック”、および”あなたのための提案”の推奨事項でこれを行います。
Amazonは、アップ販売を通じて売上を増加させるように、ユーザーエンゲージメントを通じて販売を維持し、およびするために同様のことを行います。 彼らは、”このアイテムを購入した顧客も購入した”、”あなた、アレックスのための推奨事項”、”あなたが見たアイテムに関連する”、および”考慮すべきより多くの
機械学習アルゴリズム
ここでは、機械学習の問題の種類と目的の出力について説明しました。 次に、関連する機械学習アルゴリズムの概要を説明します。
ここでは、非常に人気があり、高いレベルで知る価値がある、教師付きと教師なしの両方のアルゴリズムのリストがあります。 これらのアルゴリズムのいくつかは、このシリーズの後半でより深く議論されることに注意してください。
教師付き回帰
単純および多重線形回帰
決定木または森林回帰
人工ニューラルネットワーク
序数回帰
ポアソン回帰
最/p>
教師付き二クラス&マルチクラス分類
ロジスティック回帰と多項回帰
人工ニューラルネットワーク
決定木、森林、ジャングル
意思決定木、森林、ジャングル
p>svm(サポートベクターマシン)
パーセプトロン法
ベイジアン分類器(ナイーブベイズなど)
最近傍法(例えば、ナイーブベイズ)
最近傍法(例えば、ナイーブベイズ)
最近傍法(例えば、ナイーブベイズ)
最近傍法(例えば、ナイーブベイズ P>
1対すべてのマルチクラス
教師なし
K-平均クラスタリング
階層クラスタリング
異常検出
サポートベクターマシン(一つのクラス)
モデルのパフォーマンスを向上させるためによく使用される手法は、複数のモデルの結果を組み合わせることです。 このアプローチは、アンサンブルメソッドとして知られているものを活用し、ランダムフォレストは良い例です(後述)。
他に何もない場合は、少なくともこれらの一般的なアルゴリズムの名前を熟知し、機械学習の問題と出力の種類についての基本的な考えを持
概要
機械学習、予測分析、およびその他の関連トピックは非常にエキサイティングで強力な分野です。
これらのトピックは非常に技術的なことができますが、関連する概念の多くは、高いレベルで理解するのが比較的簡単です。 多くの場合、機械学習の問題、プロジェクト、技術などに基づいて議論するためには、単純な理解が必要です。
このシリーズの第二部では、モデルのパフォーマンスの概要を提供し、機械学習プロセスをカバーし、モデルの選択と関連するトレードオフを詳細に説
お楽しみに!
お楽しみに!AlexはInnoArchiTechとInnoArchiTech Instituteの創設者であり、O’Reilly Mediaによって出版された人とビジネスのためのAIの著者です。