現在脚光を浴びている職種にデータサイエンティストがあります。データサイエンティストは膨大なデータの中から企業に役立つ情報などを発見・分析する仕事です。データサイエンティストの仕事内容と必要な能力や収入について詳しく説明します。
データサイエンティストとは?
かつてITの仕事といえば、SEやプログラマー、サーバー技術者といったエンジニア系か、Webデザイナーなどのデザイナー系の仕事がメインでした。
しかしここ数年、「データサイエンティスト」と呼ばれる新しい職種の需要が増えてきています。
データサイエンティストは新しい職であるため、実体がどのようなものなのかがあまり知られていないというのが現状です。
データサイエンティストの仕事内容は?
データサイエンティストという仕事は分かりやすくいえば「データ分析の専門家」です。近年のAIやIoT(Intenet of Things)といった新しい分野の技術の発展とともに注目を浴びています。
データサイエンティストは、分析したデータをもとに企業の業務内容を改善したり、経営に必要な情報を把握したりします。より具体的には、「ビックデータ」と呼ばれる膨大な情報から統計学やデータ分析などを用いて、企業の事業戦略に必要な情報を探し出し、提供します。
ビックデータの解析にはプログラミングなどのIT系のスキルに限らず、幅広いスキルを求められます。
またデータサイエンティストは単独で仕事をするというよりも、複数のデータサイエンティスト達と共同でチームを組んで、それぞれの専門や得意分野の作業にあたることが多いのが特徴です。
データサイエンティストの年収は?
データサイエンティストの年収幅は広く、ケースバイケースです。
企業に勤務する場合に限っても企業の業種や規模によっても違いがあるので一概にはいえませんが、国内企業であればおよそ年収500万円から700万円台の間が多いです。
それに対し、外資系企業や日本でも一部の先進的なIT企業のようにデータサイエンスの分野を重視している企業の場合は、年収1,000万円以上というケースも少なくありません。ただしこの場合、スキルは高度なものを求められます。
■フリーランスのデータサイエンティストの年収はいくら?
フリーランスの場合、月額報酬は100万円を超える案件があり、年収に換算すると1,000万円を超える案件も存在します。
これはプログラマーやインフラエンジニアなど、他のIT系のフリーランスに比べても高い額です。ただし、データサイエンティストは月単位の契約が多く、契約期間も短期間のケースも多いです。また当然ながら高度な知識・スキルが求められるとともに、限られた期間内に成果を出さなくてはならないという厳しさもあり、プロとしての実力と自覚が強く求められます。
フリーランスのデータサイエンティストになるには?必要なスキルとは
一般財団法人データサイエンティスト協会によれば、データサイエンティストには以下の3つの力が必要であるとされています。
・ビジネス力(business problemsolving) … 課題背景を理解し、整理・解決する力
・データサイエンス力(data science) … 人工知能、統計学などの情報科学を理解・使う力
・データエンジニアリング力(data engineering) … データサイエンスを実装・運用可能にする力
データサイエンティストとして仕事をするのであれば、この3要素はどれ1つ欠けてはいけません。また課題解決のフェーズによって、3つのうちどの力が必要とされるかが変わります。
たとえば、目的設定の段階と解決の段階で強く求められるのは「ビジネス力」です。問題定義・アプローチの設計段階で必要とされるのは、「データサイエンス力」であり、処理・分析の際に必要とされるのは「データエンジニア力」だといわれています。
企業に勤めるデータサイエンティストの場合、これらの力がどれくらいあるか明示する必要に迫られることはあまりないかも知れませんが、フリーランスの場合は自分の実力をしっかりとクライアントに証明する必要があります。そのためにも、最低限以下のようなスキルや知識を身につけておくとよいでしょう。
■データマイニング
データマイニングとは、膨大なデータから有益な情報を発掘(マイニング)の総称です。データマイニングによる分析を行うと、データを分類したり、関連性を発見したり、ある事象発生確率を予測したりすることなどができます。
たとえば自社の新製品のマーケティング戦略を立てる際などに、戦略根拠となるデータを得たい場面などでデータマイニングを活用します。
また、これらのデータマイニングを行うための具体的な手法は、大きく分けて「統計分析」と「機械学習」の2つに分けられます。
統計分析は、統計学や確率論などを活用した手法です。あらかじめ検証したい課題や事象に対する仮説を立てたうえで、必要なデータを集め、適切な分析手法を選定し、分析を行う方法です。
それに対して機械学習は、事前に課題や事象に対する仮説を想定する必要がありません。機械学習を行うと、データの中からコンピュータが自立的に学習しながら、事象に関する相関関係などを導き、新しい分類を発見してくれます。
また、これらのデータマイニングを行うための手法はさまざまですが、現在代表的な手法として使われるのが、Pyhton言語と関連するライブラリを利用する方法です。
Pythonには、Pandasというデータ分析用のライブラリや、scikit-learnといった機械学習に使えるライブラリが用意されており、多くのデータサイエンティストはこれらを駆使してデータマイニングを行っています。
そのため、データマイニングの方法論とともにPython言語とこれらライブラリを駆使する能力もデータサイエンティストには必須のスキルといってよいでしょう。
■統計学
データマイニングによって得られたデータを解析するために必要となってくるのが統計学の知識です。前述のように、仮説を立て検証を行うためには統計学の知識が必須です。
統計学は大きく分けると、記述統計学(古典的統計学)、ベイズ統計学、推計統計学の3つに分類されます。これらにはそれぞれ以下のような特徴があります。
記述統計学(古典統計学):データを集計する手法を学ぶ学問。手持ちのデータの特徴を表現する(推測統計の基礎となる)。
ベイズ統計学:標本を必ずしも必要としない、母数が確率的に動くとみなす学問。
推計統計学:限られた標本のうち、全体となる母集団の性質を推測する学問。
これらのうち最低限「記述統計学」の知識は必須となりますが、残りの「ベイズ統計学」と「推計統計学」も高度な分析を行う際には必要となります。可能であればこれらすべての手法について学習しておきたいものです。
■R言語
R言語は、データ解析・統計プログラミング言語です。主に学術や研究の分野で使われていましたが、データサイエンスの普及も相まって最近では民間企業でも導入が進んでいます。
データサイエンティストが学習すべき言語としてはR言語の他にも前述のPython言語がありますが、同様にR言語も機械学習向けの拡張機能がそろっています。
■その他に必要なスキル
以上が、データサイエンティストが必要とする最低限の知識ですが、これ以外にも基本的なITスキル(ネットワークや、セキュリティ、データベースなどシステム全般)や、ビジネスに関する知識など、データサイエンティストには幅広い知識が必要とされます。分析する手法がわかっていても、その意味するところがわからなければ意味がありません。そのため、データサイエンティストは絶えずさまざまな分野に対する知見を高め日々学習していく必要があるのです。
フリーランスで成功するために!データサイエンティストが取得すべき資格とは?
データサイエンティストになるために必要なスキルについてはすでに説明しましたが、これらをすべて学習したり、その知識やスキルがあることを証明したりすることは容易ではありません。しかしながら、とくにフリーランスの場合には、新規にクライアントから仕事を請け負う際には、どうしても何らかの方法で実力を示さなくてはなりません。
ずばりデータサイエンティストになるための専用の資格試験というのはありませんが、以下に実力を証明する役に立つ資格の一部を紹介します。これらの資格を取ることにより一定の知識やスキルがあることは証明できるので、クライアントの信頼性を高める一助となるでしょう。
■OSS-DB技術者認定試験
データサイエンティストはビッグデータと呼ばれる大量のデータを扱う必要があり、その際に頻繁に用いるのがリレーショナルデータベースを中心とするデータベースです。
リレーショナルデータベースとは関係モデルにもとづいて設計、開発されるデータベースのことで、SQLと呼ばれる専用の言語で記述します。代表的な製品としてはOracle、MySQL、PostgreSQLなどが存在します。
そんなRDB向けの資格試験として知られているものに、OSS-DB技術者認定試験があります。これは、LPI-Japanが実施するオープンソースデータベース技術者の認定試験です。試験内容はPostgreSQLを基準とした内容となっています。
この試験に合格することにより、リレーショナルデータベースやSQLに関する基礎的な知識と操作スキルを持っている証明になるため、データサイエンティストとしては取得しておきたい資格の1つです。
■統計検定
統計検定は文字通り、統計学の基本を押さえているかどうかを調べる検定試験です。
もともと1級から4級まであり、それぞれのレベルでの統計学の知識を測る試験として知られていました。
近年ではこれにデータサイエンティストとしての基礎力を測る試験として、データサイエンス基礎(CBT)が加わり、近いうちにデータサイエンス発展および応用が加わる予定です。
プロのデータサイエンティストとして活動するのであれば押さえておきたい資格といえます。
■ディープラーニング検定(G検定・E資格)
ディープラーニングとは、深層学習とも呼ばれる機械学習のモデルの一種です。自動車の自動運転や、人間のトッププロを打ち破ったことで知られる囲碁プログラムであるAlpha Go、さらには顔認証などに用いられており、昨今のAIブームをけん引しています。
そんなディープラーニングに関するスキルの検定がディープラーニング検定です。
この資格には一般的な知識を問うG検定(ジェネラリスト検定)と、E資格(エンジニア資格)の二通りの試験があります。
前者がディープラーニング全般の知識を問うのに対し、後者はディープラーニングを実装するスキルを認定する試験です。
データサイエンティストは機械学習全般の知識を必要とするため、可能であればこれらの資格も受験しておきたいところです。
■基本情報技術者/応用情報技術者
すでに説明した通り、データサイエンティストは統計学といった単なるデータ処理に関するスキルばかりではなく、ICTシステムおよびそれに関連する事項全般に深い知識を必要とされます。
そのため、コンピュータ科学基礎から、システムの開発運用をはじめ、セキュリティや経営など幅広い領域の知識を問う基本情報技術者、さらには応用情報技術者試験に合格していると、これらの分野に対する知識を持っていることの証明になるうえに、データ分析に必要となる知識を身につけられることから、これらの資格の取得もデータサイエンティストのスキルアップに役立ちます。
■その他の役に立つ資格
ここまで紹介したスキルはあくまでも分析手法およびITスキルに関する資格および試験でしたが、ビジネス分野でいえば、たとえば会計の知識を証明する日商簿記のような資格も役に立つでしょう。
また、MBAや会計士、中小企業診断士などの資格をすでに持っている人が、新たなキャリアパスとしてデータサイエンティストになるためのスキルを身につけるのもクライアントに歓迎されるでしょう。
フリーランスのデータサイエンティストに将来性はあるのか?
ここまでデータサイエンティストに関する基本的な情報をまとめてきました。
最後にフリーランスのデータサイエンティストの将来性について考えてみましょう。
現在はデータサイエンティストの絶対数が足りていないため、人手不足の状態であるといえます。そのため、フリーランスでも比較的活躍しやすい状況であり、その状況は今後もしばらく続くと思われます。その意味で、フリーランスでも活躍する機会の多い将来性のある職種といえるでしょう。
ただ将来的にもデータサイエンティストとして成功し続けるためには、分析スキルは勿論のことですが、クライアントの意向を正確に理解し、適切な分析と情報提供をできるコンサルトとしての能力が必要となってくるでしょう。
このように、データサイエンティストはあらゆる知識やスキルを絶えず研鑽していく努力が必要となる職種であるということは覚悟しておくべきでしょう。
この記事を書いた人
亀田 健司
ITコンサルタント
ソフトウェア開発・IT研修講座の講義・研修プログラムの開発・プロデュース業務を行う。大手WebメディアなどにIT技術・人工知能・プログラミング・セキュリティ・IoT関連技術に関する専門記事を執筆。