未経験から日本版KaggleのDeep Analyticsチュートリアルができる講座
この講座は、
「データサイエンティストがどういうことをしているのか体験してみたい」
「Kaggleに手を出してみたいけど、英語だから尻込みしている」
「仕事に直結するデータ分析をしてみたいけど、なにからしていいかわからない」
という人におすすめです。
Pythonのインストールから始まり、簡単なデータ分析をステップ・バイ・ステップで、講師と一緒に手を動かしながら学んでいくスタイルの講座です。
Python?Anaconda?Jupyter?Matplot??
と聞いたことがなくてよくわからない、という人から、
環境整備はできてるけど、データ分析は何をしたらいいの?
という人まで。
受講完了後にはDeep Analyticsという、データ分析コンペのチュートリアル(練習問題)が解けるようになる、という構成です。
講師はオプトワークスの高田朋貴先生。博士号を持つ、コンピュータサイエンスの専門家です。
実際に受講してみた感触としては、
・環境構築から説明してくれるので、ゼロからでもスタートできる
・課題のステップが非常に細かいので、とりあえず理解しやすい
・実際に自分で手を動かせるようになるためには、Deep Analyticsのチュートリアルを何回かやってみる必要あり(で、わからないところは講座に戻って確認して、やり直してみればOK)
受けると、Deep Analyticsのコンペにトライしたくなる!
「ビジネスケースで学ぶPythonデータサイエンス入門」は本当にゼロからデータ分析ができるようになるのか?
実際の講座の流れと、受けてみた感想を書いていきます。
その前に講師の紹介です。
講師:高田朋貴先生(オプトワークス)
明治大学大学院理工学研究科修了。博士(理学)。
専門はコンピュータサイエンス(言語処理、人工知能等)や概念形成など。
大学生を対象としたデータ活用実践講座等、データサイエンス講座講師を経験。
実務では企業とデータサイエンティストをマッチングさせる「DeepAnalytics」を中心に、分析コンサルティングやコンテスト設計・運営等、データビジネス業務に従事。趣味は和太鼓、おわら。
講座の構成
コースは7つのセッションに分かれています。
セクション1:はじめに(前置きですね)
どういうことを学ぶかを簡単に説明しています
セクション2:分析環境を整えよう
Pythonの環境を整えます。Anacondaというパッケージをインストールすると、Python × データ分析の環境が整います。
Pythonのスクールやセミナーでも最初か事前にやるやつですね。
セクション3:まずデータに向き合おう
早速Deep Analyticsからサンプルデータを持ってきます。
やることは
・データを読んでみる
・課題に取り組んでみる
・グラフを作ってみる
実際のデータを使って、手を動かしていきます。
課題は全てJupyter notebookでできるようになっているので、心配不要です。それぞれの課題に解説動画がついているので、
1.課題を解いてみる
2.答え合わせする
3.間違ったor理解の足りないところをもう一度やる
の3ステップを繰り返すと、より的確に学習が進むんじゃないかと思います。
セクション4:予測するってどういうこと?
ここでは、人工知能の活躍の場、
「過去のデータから、不明なデータを予測」
するときに、どういうことを考えるのかをレクチャーしてくれます。
セクション5:CASE1 お弁当大作戦~お弁当の売上を予測してみよう~
ここからいよいよ本格的な分析が2つ続きます。
回帰分析、重回帰分析といった、基本的な手法を使った予測をしてみます。
セクション6:CASE2 優良顧客を探せ!~銀行の顧客ターゲティング~
決定木をつかった分類、予測をします。いわゆるランダムフォレストという手法です。
モデリングを行い、パラメータを調整して、予測をする、という、データ分析をする際に必ず行う原則的なフローを実体験していきます。
機械学習にも様々な手法があるので、調べてみて同じ課題でもモデルやパラメータによってどのように予測精度が変わるのかを試してみるのもいい勉強になると思います。
セクション7:次のステージへ
データ分析を学ぶと、「トンカチを持つと全て釘に見える」状態に陥りがちです。でも、データ分析アルゴリズムはそれぞれに得手不得手の癖があるので、全て信頼し切ることはできません。
また、現在進化の過程にある分野なので、常識も変化しているよ、ということを教えてくれます。まさに心構えのまとめですね。
Deep Analyticsとは?
色々な起業や大学が、データと課題を設定している、コンペサイトです。
At Coderや、Top Coderがプログラミングのコンペサイトとすると、
KaggleやDeep Analyticsはデータ分析のコンペサイトです。
運営はオプトです。東大、東工大といった一流大学や、経産省、ユニクロ、ヘッジファンドなど、多様な企業が参加をしています。
テーマも様々です。登録は無料なので、登録して実際に使ってみるといいでしょう。ただし、Kaggleと違って優秀者のコードが公開されないので、勉強する、というよりはチャレンジする感じですね。
まとめ:ゼロから実際のビジネスデータを使った分析が体験できるため、イメージがつきやすい
ビジネスケースで学ぶPythonデータサイエンス入門は、Python環境構築から、Deep Analyticsのようなデータ分析コンペで使われている実データを使いながら学習が進められるため、非常にイメージがつきやすいです。
チュートリアルを独学で進めるのがちょっとつらい、一度詳しく説明を聞いてみたい、という人にとてもおすすめです。
Pythonデータ分析のスクールでちょっとついていけなくなってきた、本を読んでもちょっとわからない、という時に見直してみると、何がわかっていなかったのかが明確になってよいでしょう。