データサイエンティストについての再考1


このブログの著者は、地域課題を解決できるデータサイエンティストを目指している企業の研究者なわけです。しかし、肝心のデータサイエンティストについてあまり言及していませんでしたので、ここで自分のために再考しておきます。
f:id:demacassette:20160111003327p:plain



(目次)



データサイエンティストの一般的定義

まずはネット上の記事からデータサイエンティストの定義や役割についておさらい。
itpro.nikkeibp.co.jp

データサイエンティストは一般に、高度な統計解析ツールを使いこなし、大量のデータを収集、加工、分析してビジネスに生かす職種とされる。2009年2月、米グーグル チーフエコノミストのハル・バリアン氏は「今後10年で最もセクシーな職業は統計家だ」と発言。さらに、米ハーバード・ビジネス・レビューの2012年10月号は、データサイエンティストを「21世紀で最もセクシーな職業」と表現した。

この「今後10年で最もセクシーな職業は統計家だ」という発言がネット上で飛び交い、言葉としては広がったと思います。次の必要なスキルを確認することで、定義の理解が深まると思います。


データサイエンティストに必要なスキル・素養

同記事によれば、以下の5つのスキルセットだそうです。

データサイエンティストに必要なスキルセット

(1)ハッカー(プログラミング、Hadoop運用などのITスキル)
(2)サイエンティスト(科学的根拠に基づく意思決定力)
(3)アドバイザー(コミュニケーション能力)
(4)計量アナリスト(統計分析能力)
(5)ビジネス・エキスパート(ビジネスへの理解力)

データサイエンティストと呼ばれる職種の特徴として、単なる情報処理オタクではないことがあると思っていました。やっぱりそうゆうことです。上記のスキルセットのうち、(1)ハッカー、(2)サイエンティスト、(4)計量アナリストについてはそれぞれエキスパートとして研究者や技術者が存在していますよね。しかしこのスキルに(3)アドバイザー、(5)ビジネスエキスパートといったスキル(厳密には考え方や経験だと思いますが)が加わると一気に新しい感じになります。なので、データサイエンティストって実は、データサイエンスコミュニケーターみたいな方が表現としてあっていると思ったりします。

私は(2)と(3)については、仕事上養われてきたと思いますが、他のものはここ最近勉強しているので、これから強化が必要だと思っています。


また、別記事においても同じような素養を求めています。
news.im-dmp.net

データサイエンティストの6つの特徴

  1. ”彼ら”はデータを理解している
  2. ”彼ら”は好奇心旺盛
  3. ”彼ら”は皆と協力して働く
  4. ”彼ら”は確証バイアスを避けるよう心がけている
  5. ”彼ら”はたくさんのスキルを習得していく
  6. ”彼ら”はビジネスについても俯瞰的に考える
確証バイアスを避けるよう心がけている?

4つ目の「確証バイアス」については、初出なので少し元記事から引用します。

「確証バイアス」とは社会心理学における用語で、個人の先入観に基づいて他人を観察し、自分に都合のいい情報だけを集めて、それにより自己の先入観を補強するという人間の傾向のことを指す。 データによりたくさんの証拠が与えられているにも関わらず、単に自分の意見と違うからという理由でそのデータを無視したり除外したりするのは、人間のやりがちなミスではあるが、適切な考え方ではないのであるクラウドソーシングのプラットフォームを主力事業とする、Ranker社の主任データサイエンティストであるRavi Iveyでさえ以下のように述べている。「人というのは自分の視点が唯一の視点またはベストな視点であると考えたがる。私自身もそのような傾向を持っていることに気づかされることが多々あります。私たちは脳みその中に独自の判断アルゴリズムを持っていて、実際のデータや調査結果を与えられたとしても正当に評価しようとしないのです。

これ、ビジネスシーンではよくありますよね。データによる考察や検討結果に対して、「それは私には理解できない。私ならそう思わない」とか「私の好みではない。我々の仕事の範囲を超えている」とかいう発言をする上層部の方って多いとおもいます。それなりのお立場でご経験も豊富でしょうから発言自体が不適切だとは思いませんが、確証バイアスという呪いにかかってしまってますので、冷静に判断できてないかもしれません。ということは、こういったすんなり分かり合えない人たちの考え方の傾向や習性を事前に捉え、それに見合った分析結果や表現をしてあげるしか方法はないのかもしれませんね。

ビジネスシーンでは、サイド攻撃とかバックアタックを考えたい

6つ目の「”彼ら”はビジネスについても俯瞰的に考える」については先のスキルセットと同様ですね。

”彼ら”はデータを分析して得られた内容を理解して伝えるスキルだけでなく、仕事をする上で達成するべき目標やビジネスの暗黙のルールなどについても深く理解している。

これは、確証バイアスの回避法にも通ずるのですが、会社やビジネスシーンの中では、いくら自分が社会的に正しいことをしていても、それだけでは通らない場面がどうしても出てきます。となると、ビジネスの進め方や仕事上の超えなければならない壁とかルールを十分に理解し、いろんな角度から攻めていく必要があるということかなぁと思っています。最近の仕事ではこれをよく痛感します。正面突破とかサイド攻撃、バックアタックみたいにいろんな戦術を検討して攻めていかないといけません。


データサイエンティストの育成は大変?

この問いに対する答えは、「それほど大変ではない!」といったところでしょうか。
同記事によれば、

データサイエンティストを育成しようと、マーケティング部員に無理に統計学を覚え込ませると「確率論のあたりで多くの人がドロップアウトする」(渋谷氏)。そこで同氏は、文系の部員に統計学を教えず、最初から分析ツールに触れさせた。「扱うデータが十分にビッグなら、仮説検定(ある仮説が正しいかを統計学的に判断すること)を知らなくても、業務上はまったく問題ない」

つまり、データ分析等の基本原則は別に知らなくても、ざっくりどんな処理がされてどんな結果が出てくるのか、そしてそれをどう調理するかさえわかっていればいいという人材育成スタンスですね。前述のデータサイエンティストに必要な素養を見ればわかるように、データ処理の技術は後付けもできますから、これでいいと思います。それよりも、データ処理以外の部分の教育や経験の方がはるかに難しいでしょう。これこそ、計画的に若手のうちから経験しておかなければ、あとから取り返すのは難しいかもしれません。


データサイエンティストがもたらした成果

会社にいるとこれが最も重要視されます。基本的に大企業は実績主義なので不確定要素が多いものへの投資は避ける傾向にあります。データサイエンティストについても、理解が深かったり特に関連が強い業種でなければ、見向きもされない言葉だと思っています。となると、データサイエンティストが必要だと感じて目指している側からプッシュしていく必要があります。その時には、成功している事例を示すのが手っ取り早い。その事例が自社にそのまま適用されるわけではないと念押しはしますが、そんなの聞いちゃいません。

では、世の中にあるデータサイエンティストが関与したと思われる成功事例についてです。
japan.zdnet.com
itpro.nikkeibp.co.jp
大阪ガス 河本 薫 所長インタビュー:ビジネスアナリシスセンターのご紹介 | 株式会社オージス総研
www.softbanktech.jp
news.im-dmp.net
www.smartbi.jp

これ、ほんの一部です。検索したら膨大な量でてきます。これを一つ一つ分析したいところですが、ちょっと後回しにしまして、大まかなことだけ考えます。これらの事例の多くは、「利用する出口をあらかじめ明確化しておいて、必要そうな情報を広く絞り込みすぎずに集めて分析し、顧客の獲得や業務の効率化及び最適化を実現する」といったものが多いと勝手に感じています。

これからのデータサイエンティストは?

ビッグデータという言葉が流行りだしたのは、2013年頃だと記憶しています。その頃から、データ分析の重要性、世の中に溢れてくるデータ活用法の模索が始まり、データサイエンティストという職種が定義されてきたのだと思っています。よくよく考えれば、そういったことをやっていた人は昔からいて、経営の中枢やマーケティング部のような部署にいたのだろうと思います。しかし、現在はいろんな業種の人がビッグデータに触れることが多くなり、かつそれらを活用したらもっと面白くなるのではないか?と気づいいたからデータサイエンティストという存在が重要になってきたのだと解釈しています。さて、今後のデータサイエンティストはどのように進化していくべきなのでしょうか?

データサイエンティストの代替手段はすでに出始めている

人工知能機械学習、ディープラーニングといった言葉もよく聞くようになりました。これらの技術により、データサイエンティストが担うべき内容をコンピュータが代替してしまう!という恐ろしい技術も出てきているようです。(人の仕事を奪うなよ。。。)
itpro.nikkeibp.co.jp

そういった背景を受け、さきほどの記事ではこんなことも言われています。

果たして、「21世紀で最もセクシー」と評価されたデータサイエンティストは、「高額報酬の専門職」から「ビジネスパーソンとして当然のスキル」へと、早々にコモディティ化するのだろうか。

一方で、ビッグデータの利用に伴うセキュリティやプライバシー保護の問題が、新たなボトルネックとして浮上しており、この点を解決できる人材が求められているためだ。こうした次世代型のデータサイエンティストには、先に挙げた5つのスキルに加え、新たなスキルセットが求められる。セキュリティ、プライバシー保護の双方に精通し、全社員が気兼ねなく使えるデータ収集・分析基盤を設計できることだ。

ちょ、また要件増えましたよ。今後は氾濫するデータをきちんと整理して制御する技術が必要だとのことです。この部分だけ取れば、従来の情報工学系技術者が担うべき役割かと思います。技術的にはそういった方が携わるのでしょうが、それらを俯瞰的に総合的にまとめていくのが、次世代のデータサイエンティストの使命だということでしょうか。

さいごに一言

データサイエンティストといっても、様々な立ち位置や切り口があると改めて感じます。もともと変化スピードが速いIT系の業界では、かなり競争が激化していると感じます。一方、今までITとは無縁だったと思っていた業界は大変です。例えば伝統工芸や高額な家具、建設現場やまちづくり、高齢者向けのサービスや生活環境の改善など、これからの日本にとっては課題となって解決が必要になりそうな分野にはまだまだデータサイエンスの考え方が入り込めていないように思います。要因様々あると思いますがボトルネックとして考えられるのは、一つはデータサイエンティストが入っても効果があると思われていないこともう一つはデータサイエンスへの拒絶感が蔓延していること、だと思います。
要因の一つ目は、データサイエンティスト側の努力で少しは改善できますが、もう一つ目はちょっと別のアプローチで受け手や使い手に対してデータ活用に対するアレルギーをなくす取り組みが必要になると思います。

とは言っても、こういった分野に切り込んでいこうと腹を決めたので貫きます。また、整理していけば活路が全くないわけではないということもわかってきますので、引き続き最新の情報を勉強しながら実践していこうと思ってます。

では


<以下、参考記事>
www.wunderman-d.com
doda.jp
business.nikkeibp.co.jp
president.jp
bigdata.teradata.com


データサイエンスに関わるプレーヤーが整理されていたので記録
blogs.itmedia.co.jp