yukiyoshisato's blog

とりとめのないめも

データサイエンティストになるまでにやったこと

前回の記事からだいぶ間が空いてしまいましたが、ここでデータサイエンティストの職を頂けるまでにしてきたことを記しておきたいと思います。もし興味があって、この職についてみたいと思う方の参考になれば幸いです。

 

きっかけ(2017年秋頃)

 この本を読みました。だいぶ前に一度流行った本ですが、

そのうち読んでみようと思ったまま月日が流れていました。でもデータサイエンティストの職業にちょっと興味もあったので、なんとなく読みはじめてみたらまぁ面白かったです。統計の教科書というよりは読み物として非常に読みごたえがありました。いろいろな事例を交えて説明されており、うまく興味を掻き立てられ、本を読み終えた頃にはどうやったらデータサイエンティストになれるのかを考え始めていました。

 

スクールに入学(2017年12月)

とりあえずデータサイエンティストにどうやったらなれるのかググっていたら、データサイエンティストを養成するスクールが出始めていることに気が付きました。で、最初にこちらの説明会にお邪魔しました。

datamix.co.jp

すごくみっちり鍛えてもらえそうでいい感じはしたのですが、時間的な面と金額的な面(70万円程)でそこまでの覚悟は決められず、断念しました。その後見つけたのがこちらです。

 

www.aijobcolle.com

金額も10万円と破格で、講義のペースや回数なんかも仕事しながらなんとかやれそうな気がしました。また、初回の講義を受けてちょっと違うなと思ったら返金も受け付けてもらえるとのことだったので、ものは試しで行ってみようという気持ちでいくことができました。

実際に行ってみたら、こちらのサイト見てもらえれば分かりますが、講師陣はものすごく充実しており、お話もすごくおもしろかったです。仕事としてもすごく興味を持てて純粋に勉強したいと思えて、なおかつ非常に優秀な講師の方に教えてもらえるので、これはやってみる価値はありそうだと確信できました。

ただ、今思えばここでひとつ判断ミスをしました。機械学習や深層学習等いわゆる人工知能にかかるようなプログラミングをするためには、非常に性能の良いPCが必要になります。システムエンジニアをやめて証券会社で働き始めてからは家でプログラミングすることもめっきりなくなり、ちょっとしたネットブック的なしょぼいPCしか持っていなかったので、まともな性能のPCを買うことにしました。しかし、自分は昔からWindows一筋だったので、Dellでそこそこ性能の良いWindowsマシンを購入しました。実は説明会だけ行って失礼してしまったデータミックスさんでも開発環境のアドバイスをちゃっかりいただいた時に、データサイエンティストとか機械学習エンジニアはみんなMacBook Proですよ、と言われ、AIジョブカレの講師の方もMacBook Pro使っているのを見ていたのに、Windowsにしてしまいました。でもやっぱりMacBook Proにしておけばよかったと今は思います。なぜなら、職場で一緒に働いているデータサイエンティストはMacBook Pro以外使っている人はいません。Windowsでやっている人もいるでしょうが、かなり少数派だと思います。今は私もご多分に漏れず仕事でMacBook Pro使ってます。とりあえず、データサイエンティストや機械学習エンジニア目指すならうだうだ言わずにMacBook Pro買った方がいいと思います。慣れるのに少し時間は必要ですが、毎日使ってれば誰でも使えます。当たり前ですけど。さすがにまだ購入して半年ぐらいしかたっていないので自宅PCはしばらくWindowsで我慢しますけど、そこそこ後悔してます。でもWindowsだとSteamで聖剣伝説2ができるので許します。

 

スクールでの講義と宿題(2017年12月~2018年3月)

AIジョブカレは動画も取ってくれるので、講義の時に分かった気がしててもあんまり分かっていなかったところとか聞き洩らしていたところとかも復習できるので、すごく学習しやすかったです。また、宿題の内容も最初とりかかったときはPythonも初めてだったのでちんぷんかんぷんでしたが、そういった初学者でも手が動かせるようにすごくよく工夫されていたと思います。

でも、正直最後の方になるまでは、私はかなり落ちこぼれの部類だったと思います。理系でもなく、Pythonも初めてで、受講生の方で結構活発に質問されている方とかはすでにデータ分析の仕事とかしているような感じの人もいて、内心、やばい・・・やっぱり敷居高そうだな・・・と感じていました。宿題もなんとかかんとか食らいつきながらこなしているような状況でした。本音を言うと当時は全然内容理解できていなかったと思いますがが、とりあえず動くものを作ってなんとかギリギリで提出するの繰り返しでした。

 

自学自習(2017年12月~2018年3月)

Javaは最初の会社でずっとやっていたので、基本的なプログラミングの知識とかは大丈夫かなと思っていましたが、Pythonは見たことも触ったこともなかったので、まずはここから始めました。

まずは第一歩です。Pythonって動的に型付けするところとかすごく新鮮な感じがして、シンプルにかけるんだなーと思って面白かったです。

あと、実際にデータサイエンティストがどんなライフサイクルで仕事しているのかさっぱりイメージが湧かなかったので、こちらの本を読みました。

こちらも非常に良い本で、2018年1月当時では機械学習プロジェクトの始まりから終わりまでを描いている本はそんなになかったと思いますので、大変参考になりました。

最後の1冊は、AIジョブカレで講師の方にかなり最初のころに推薦されていたのですが、書店で手に取ってパラパラっとめくってみたらだいぶ込み入った感じがして、ちょっと手を出せずにいました。

でも、いざ読み始めてみたら、すごくわかりやすく解説されていて、AIジョブカレ受講生であれば、初学者でも全然読める内容だと思います。というか講義の流れと本の流れがほぼリンクしているので、漠然としか理解できていなかったところが改めて本で復習できるような感覚がありました。ゼロから読んだらもしかしたらとっつきにくいところもあるかもしれませんが、AIジョブカレの講義の副読本としては非常に良い本だと思います。

あとは、やはりFinTech周りの勉強をしたいなと思っていたので、仮想通貨も盛り上がっていることだし、以下の本を読みました。

 

転職活動(2018年2月~3月)

2月24日に仮想通貨・ブロックチェーン企業合同企業説明会 in 東京第1回というものが開かれるということだったので、行ってみました。

withb.co.jp

仮想通貨がかなり盛り上がっていたこともあって、参加者の数もすごくてLIFULLさんの会場にすし詰め状態でしたし、報道陣もかなり来ていました。ちょっとあれは具合悪くなるレベルの人口密度でしたね・・・。でもイベントとしてはかなり良かったと思います。話を聞いた中では、カレンシーポートの杉井さんとBitFlyerの江田さんの話はすごくおもしろかったですし、このお二方は凄く本物感がありました。杉井さんは社長なので当たり前と言えば当たり前かもしれませんが、BitFlyerは現場の人でもかなり優秀な人集めてるんだなーと思いました。コンセンサス・ベイスの志茂さんともお話させていただける機会を頂けて、かなり多方面でご活躍されていて、その縦横無尽ぷりに大企業色に染まり切っていた自分としてはちょっと面食らう感じもありました。一方で、社長のくせにかなりイマイチな人とかもいましたけど、それはここでは割愛します。

ここの参加企業でデータサイエンティストの職を募集しているのを発見し、個別の企業ブースでもかなり色々をお話を聞かせて頂くことができ、会社のビジネスもチームの方々もすごく魅力を感じたので、その場で応募することにしました。やはり自分としてはFinTech×データサイエンスで探していたこともあって、運命感じるレベルで出会っちゃった感がありました。

で、採用プロセスが始まり、大体のデータサイエンティストや機械学習エンジニアの職では課されるプログラミングテストがありました。データをもらってそれで機械学習のプログラムを書いて提出する、というものでしたが、やはりAIジョブカレでこなしていた宿題とはワケが違いました。AIジョブカレの宿題は自分で考えなければならないものも出てきますが、そうは言っても講義でやった内容を踏まえればやれるものでした。しかし、本当に教科書的に整っていないというか、現実世界のデータに触れて思ったのは、「まじでわかんない」でした。データサイエンティストや機械学習エンジニアの仕事の8割はデータの前処理と言われています。どういうデータを集めてきてそれをどう加工してやれば予測に役立つデータになるのかを考える部分です。なんだかんだ、AIジョブカレで用意してくれていたデータセットはすごくわかりやすいというか、初学者でも理解しやすいデータセットが使われていると思います。こういう特徴量からたぶん予測できるだろうなと思えるものがある程度綺麗にそろっており、そこからPythonでscikit-learnの学習器を呼び出してやればなんとかなる感じでした。でも出されたお題では当時の自分の理解力や実装力ではどう前処理してやれば分類器にうまくかけられる状態になるのか全然わからなかったので、ここにきて、初めてまともにExploratory Data AnalysisやPythonの実装やら機械学習のロジックの組み立て方やら「自分で調べて自分で考えて自分で作る」ということをやりました。スクールで宿題こなしているとなんとなくできている気がしてしまいますが、やはりそれは思い込みで、スクールが上手に導いてくれているからそう思えていただけでした。スクールの外で真の実力を問われた瞬間に異次元の課題の海に飛び込んで溺れかけるような感じがしました。でも、なんとかやらねばという思いで、上記のPython機械学習プログラミングを読みながらいろいろ試して平日は睡眠時間を削って、休日は朝から晩までひたすら勉強・プログラミングをし続け、正直、全然できたという手応えはなかったのですが、なんとか提出させていただきました。

 

AI関連企業の研究(2018年3月)

転職活動と並行して、AIジョブカレでも転職先の候補となる企業の方々を集めたプレゼンの場を設けていただき、現場のデータサイエンティストの方々のお話を聞かせて頂いて本当に参考になりました。中でも実際に企業にも訪問させていただいたブレインズコンサルティングさんとGA Technologiesさんのお話は本当に勉強になりました。特にGA Technologies橋本さんはデータサイエンティスト協会の活動などもされていた業界の第一線でご活躍されている方で、大変貴重なお話をたくさん頂くことができました。ご紹介いただいた滋賀大学の河本先生(当時大阪ガス情報通信部ビジネスアナリシスセンター所長)の本もものすごく勉強になりました(これは転職活動後に読みました)。

あと、以下のイベントにも参加しました。

techplay.jp

この中では、BEDOREの竪山さんにはとても親切に貴重なアドバイスを頂けたり、アースアイズ山内さんには夢物語ばかりじゃなくてすごく現実的な部分があることに関するアドバイスも頂けたり、その他いらっしゃっている企業さんみなさん特色のあるソリューションを持っていてとても興味深かったです。これからどんな分野でデータサイエンティストとしてキャリアを築いていけるのか全くわからなかった時期でしたが、本当に良い刺激をたくさんいただくことができました。

 

スクールでの最終コンペ(2018年4月)

AIジョブカレでは、最終課題として、受講生同士でKaggleライクのコンペをやります。その場でデータセットが配られ、それを分析して前処理して機械学習のロジックにかけて、予測してCSVファイルで予測結果を提出するというものです。

転職活動でいっぱいいっぱいだったこともあって、正直こちらには全然気が回っていなかったのですが、採用試験として課されたプログラミングテストの時のコードベースをそのまま使いまわせそうだったので、もうそれでいいやと思って、当日を迎えました。そうしたら、それでそのまま優勝出来ちゃいました。

他の受講生の方とかすでにデータサイエンティストとして働いていそうな人もいたので、自分が優勝と言われて全然実感が湧かなかったのですが、やはり採用試験の時に徹底的に「自分で調べて自分で考えて自分で作る」をやったおかげで、一気に成長できたのだと思います。採用試験でプログラミングテストが課されていなければこの優勝は間違いなくなかったですし、どう逆立ちしてもここまで自分を追い込んでやれたのは採用試験のおかげでした。また、困難な採用試験に立ち向かっていて気持ちがめげてしまいそうだったところ、AI関連企業研究でたくさんの方のお話を伺うことができてそれが頑張る原動力にもなりました。

 

データサイエンティストとして採用(2018年4月)

採用試験で分析結果を提出してから特にご連絡いただいていなかったので、正直ダメだったのかなと半ば思っていたところにスクールの最終コンペで優勝できたので、それを報告しました。すると次の日にデータサイエンティストとしてオファーを頂くことができました。最終コンペ優勝がオファーの材料になったのか真偽のほどは不明ですが、時系列ではそのような感じでした。

 

まとめ

振り返ってみると、本当に偶然の連続だったと思います。データサイエンティストになろうと思い始めたタイミングしかり、スクールとの出会いしかり、合同企業説明会での出会いしかり、AI関連企業研究で貴重なお話を頂けたことしかり、採用試験のプログラミングテストで鍛えさせてもらえる機会をもらえたことしかり、それでスクールの最終コンペで優勝できたことしかり、データサイエンティストの職を頂けることになったことしかり・・・。こんなにもすべての歯車がうまくはまることがあるのかなと思うぐらいな感じでした。

やっぱり、何事も本気で動き出せばそういう風に道は切り開いていけるし、人との出会いにも意味があるのかな・・・と自己中心的な驕る気持ちが見え隠れしつつも、関わってくださったすべての方のおかげで今の自分があることを忘れずに、世のため人のためにデータサイエンティストとして頑張っていきたいと思います。

思い出したことを片っ端から書きなぐってしまったので読みづらいところもあったかと思いますが、これからデータサイエンティストになりたいと思っている方の参考になれば幸いです。