転職レシピ|民間データサイエンティストの業務内容( IT事業会社の場合の例)

転職
本格的なデータ解析の経験があるなら、特別な準備をするよりもビジネスの文脈でデータ解析を行う経験を積むことが重要

Ciao!みなさんこんにちは!このブログでは主に
(1)pythonデータ解析,
(2)DTM音楽作成,
(3)お料理,
(4)博士転職
の4つのトピックについて発信しています。

今回は、天文学のポスドクだった私が、民間企業にデータサイエンティストとして転職する際に下調べした内容をまとめます。
2018年の転職活動開始当時、転職エージェントから「データサイエンティスト」という職種を進められました。
「データサイエンティスト」という言葉を初めて耳にした私は、自分なりに「データサイエンティスト」について調べて情報をまとめていました。

この記事では民間データサイエンティストの業務内容をご紹介します!
私の現職の業務内容ではなく、2018年の転職活動当時にまとめた情報を取り上げます。
さらに、私が2年余り民間企業でデータサイエンティストとして勤務してきた経験から補足します。

今回は具体例の紹介です。
気軽に読んでいただいてイメージを掴むのに役立てていただければ幸いです!
民間企業への転職を考えている博士・ポスドクの方には、自身の強みを言語化したり、転職までに準備しておくべきことや転職後に得たい経験を整理するために参考にしていただけるでしょう!

Kaiko
Kaiko

この記事は以下のような人におすすめ!

  • データサイエンティストの具体的な業務内容は?
  • データサイエンティストに必要な能力は?

Abstract | データサイエンティストの業務内容

データサイエンティストとしての業務は会社によらずだいたい同じで

  • 問題設定
  • 分析手法検討
  • 分析と試行錯誤
  • 結果の解釈
  • ビジネスへのフィードバック

という流れで進められます。
問題設定とビジネスへのフィードバックではマーケター系データサイエンティスト的なビジネス能力(データ分析をビジネスに結びつける力)、分析手法検討と結果の解釈ではアカデミック系データサイエンティスト的な統計学の能力、分析と試行錯誤ではエンジニア系データサイエンティスト的なアルゴリズム能力が求められます。
そのため、データサイエンスプロジェクトで活躍するには、これら3つの能力を磨く必要があります。

博士・ポスドクのように本格的なデータ解析の経験があるのであれば、特別な準備をするよりもまずはビジネスの文脈でデータ解析を行う経験を積むことが重要です。
プロジェクトの中で対象のビジネス分野に必要な知識を覚えていけば、すぐに活躍できるようになるでしょう。
プロジェクトの中でビジネス能力、統計学の能力、アルゴリズム能力を磨いていきましょう!

Background | Facebookによるデータサイエンティストの定義

以前の記事「転職レシピ|データサイエンティスト3類型(博士・ポスドクの研究経験を活かすアカデミック系データサイエンティスト)」で紹介した、Cyber Agentの尾崎隆氏のブログ(こちら)によれば、「データサイエンティスト」という言葉を定義したのはFacebook社だそうです。
Facebook社がデータサイエンティストにもとめる要件は以下です。

  • 関連分野での理系修士or博士号or4年以上の実務経験
  • 定量分析
  • 非構造データの扱い等
  • データを科学してビジネスにコミットする姿勢

今回の記事では、私が2018年の転職活動当時に調べた情報から、データサイエンティストの業務内容の例をご紹介します。
例によってCyber Agentの尾崎隆氏のスライドからの抜粋です。
そこに私がデータサイエンティストとして2年余り働いた知見から補足します。
データサイエンティストを目指して転職する際の参考にしてみてください!

Data | IT事業会社のデータサイエンティストの業務内容の例

IT事業会社のデータサイエンティストの業務の例として、Cyber Agentの尾崎隆氏のスライド「21世紀で最もセクシーな職業!?「データサイエンティスト」の実像に迫る」から情報をピックアップします。
このスライドは私が2018年に転職活動を行った際に参考にしたものです。
前回の記事「転職レシピ|データサイエンティストになるために必要な能力と心構え(ビジネスにコミットする科学者になろう)」でも、このスライドの内容を取り上げました。
業務例以外に、必要な能力や心構えなど、データサイエンティストを目指す上で有益な情報を発見できますので、そちらもご覧ください!

Cyber Agent 尾崎氏の業務内容

Cyber Agent 尾崎氏の業務内容は

  1. 戦略マーケット会議での課題設定
    • データ・数値の共有
    • 仮説設定
    • ゴール設定
  2. 分析手法の設定
  3. 分析の実施、結果の解釈と可視化
  4. レポート作成・プレゼン

といったもののようです。
業務の流れは前回の記事(こちら)で紹介したものとほぼ一緒で

  • 問題設定→分析手法検討→分析と試行錯誤→結果の解釈→ビジネスへのフィードバック

となっています。

補足 | データサイエンスプロジェクトの流れはどこもだいたい一緒

データサイエンティストとしての業務の流れは会社によらずだいたい同じです。
コンサルティング系会社のデータサイエンティストでも一緒です。
私が勤務しているコンサルティング系会社のプロジェクトも進め方は上記の流れです。
課題設定のための入力がクライアントから来るか内部から来るか、ビジネスへのフィードバック先がクライアントか内部かの違いです。

Cyber Agent 尾崎氏のデータ分析環境

Cyber Agent 尾崎氏の分析環境は

  • データ分析言語
    • R
    • Python
    • Matlab
  • データベース基盤
    • Hadoop + Hive

となっているようです。

補足 | PythonかRのどちらかは使えるのが望ましい

データ分析の言語として、PythonとRはどこの企業でもよく使われています。
私もPythonとRを使います。
Pythonの方が慣れているので基本的にPythonを使いますが、周囲にはRをメインに使う人が多く、R指定のプロジェクトもあるためRを覚えました。
数を0から数えるか1から数えるかなど、細かい部分は違いますがPythonが書けるならRもすぐに書けるようになります。

天文学業界ではR使用者に出会ったことはない(転職活動をはじめるまではそもそもR言語をほぼ知らなかった)ですが、研究分野によってはRを使う研究者も多いようです。
経営工学出身で統計分析をやっている方はR使用者が多い印象があります。
統計分析はR、機械学習はPythonという使い分けをする方もいるそうです。

補足 | データベース基盤の重要性は企業によりけりかもしれない

データベース基盤はデータを保有する企業によりけりかもしれません。
私の勤務先ではデータベースにアクセスしてデータを落としてくることはほとんどありません。
これはコンサルティング系企業はデータをクライアントから提供してもらうためだと思われます。
基本的にはデータベースから対象のデータを抽出する作業はクライアント側でやってもらうので、コンサルティング系企業のデータサイエンティストがデータベースを操作する機会は少ないです。
ただ、プロジェクトによってはクライアントのデータベースにアクセスして必要なデータを抽出することもあります。

事業会社の場合は自社内にデータを持っているので、そこから必要なデータを抜き出す作業が必ず発生するのでしょう。
特にWeb系・IT系事業会社では膨大なデータを集めているので、データベース作業なしには業務が成り立たないと思われます。
尾崎隆氏は前述のスライドで、データベース操作スキルの必要性を強調されていますが、このようなことが背景にありそうです。

Cyber Agent 尾崎氏のデータ分析手法

Cyber Agent 尾崎氏がよく使うデータ分析の手法は

  • 機械学習:
    • 決定木
    • ロジスティック回帰
    • SVM
    • ランダムフォレスト
    • アソシエーション分析
    • グラフィカルモデル
    • etc…
  • 計量時系列分析
    • ARIMA
    • VAR
    • VECM
    • SETAR
    • マルコフ転換モデル
    • etc…

といったものだそうです。
機械学習の方、決定木、ロジスティック回帰、SVM(Support Vector Machine)、ランダムフォレストはよく使われる統計分析・機械学習の手法です。
計量時系列分析の方では、ARIMAとVARはメジャーな手法です。

補足 | 分析手法は企業で扱うデータやプロジェクトの目的次第

使う手法は分析内容や目的、対象のデータにもよるので、企業やプロジェクトによって偏りが出るかもしれません。
私の場合は、機械学習は各種回帰分析、線形判別などの統計的な判別分析など、統計学の世界でメジャーなものを使うことが多いです。
正直、アソシエーション分析やグラフィカルモデルという単語は聞いたことがありません。
業界によっては、さまざまな分析に名前がついていることがあるのでその一種かもしれません。
また、時系列分析を私の業務で行う機会は少ないですが、ARIMA、カルマンフィルター、生存時間解析あたりは使うことがあります。

Results | データサイエンスの事例

データサイエンスの事例として、私が転職活動当時にまとめた「画像データを使ったデータサイエンス」の例をリストしておきます。
情報は古いですが、「データサイエンスプロジェクトってこんなもの」というイメージを掴む参考になるでしょう。

Discussion | 私が実際に働いてみて感じたこと

博士・ポスドクの研究経験を活かせば即戦力になれる

私が実際にデータサイエンティストとして働いてみて感じたのは、本格的なデータ解析の経験があるのであれば、特別な準備をするよりもまずは飛び込んでみることが大事ということです。
プロジェクトの中で対象のビジネス分野に必要な知識を覚えていけば、データ解析の経験をビジネスに活用することは十分可能です。

知識のアップデートは必要

まずは飛び込んでみることが大事とはいえ、やはりデータサイエンスに関する知識を習得し、実際に働き始めてからも知識をアップデートすることが必要です。
産業化で日夜データ活用が叫ばれる中、世の中に存在するデータの種類や量が増え、それに応じて解決できるビジネス課題や分析手法の種類や量も増えています。
アカデミック系データサイエンティストとして活躍できているとしても、エンジニア系データサイエンティストとしてのアルゴリズム能力やマーケター系データサイエンティストとしてのビジネス能力(データ分析をビジネスに結びつける力)を磨く必要があります。

統計学についてもプロジェクトの中で見識を広げていくと活躍できるデータサイエンスプロジェクトの幅が広がります。
対象となるビジネス分野によって、よく使われる統計学のアプローチが異なっていたり、データの種類が異なるために最適な分析手法が異なることがあります。
統計学の引き出しを増やせると、さまざまなビジネス分野で活躍できる可能性が高まります。
また、統計学の知識を整理しておくと人に教えることができます。
データサイエンティストとして活躍できるようになると、人に教える機会も増えていきますので、知識を整理が重要になってきます。

Conclusion | まとめ

最後までご覧いただきありがとうございます!
IT事業会社のデータサイエンティストの業務内容の例を紹介しながら、コンサル企業で2年余データサイエンティストをやっている私自身の経験で補足しました!

博士・ポスドクにとっては、研究の経験やスキルを活かしつつ、実際に働きながらビジネス知識を適宜インプットしていけば活躍のチャンスに恵まれるはずです!
民間企業への転職を考えている博士・ポスドクの方は「アカデミック系データサイエンティスト」を選択肢にいれて検討してみてもいいかもしれません!

以上、「転職レシピ|民間データサイエンティストの業務内容( IT事業会社の場合の例)」でした!
またお会いしましょう!Ciao!

コメント

タイトルとURLをコピーしました