2021.07.12

Kaggleで得たスキルを、ビジネスに活かして

リンクをクリップボードにコピーしました

 Kaggleグランドマスターとして活躍する大越拓実氏のビジネスやKaggleコンペのソリューション検証を支えているのがHP Workstationです。

 野球が好きだという子供は珍しくありません。しかし、多くの子供がプレイや観戦に熱中する中、大越少年は統計を取ることも野球の楽しみのひとつでした。「友達と野球をするだけでなく、自分の打撃記録をエクセルで管理して、プロ野球選手の成績と比較したりしていました。今思えば、子供の頃からデータをとることが好きだったのかもしれませんね」

 大越氏は高校生になると、打率や打点だけでなく、細かい指標を用いて選手の価値を分析する「マネーボール」に興味を持ちました。

 この統計データ分析によって、価値のある隠れたスターを見つけ出したこともあったそうです。「野球のデータ分析がとても楽しかったので、進学先には統計学に強い大学を選びました」。

 こうして進学した名古屋大学 情報学部で機械学習を学び、スポーツの応援と結果の関係を読み解く研究に取り組みました。さらに世界最大のデータサイエンスコミュニティKaggle(カグル)に参加し、機械学習を中心に知識を深めていきます。

 大学卒業後は、Kaggleグランドマスター数が日本一の企業でもある株式会社DeNAに入社。その後、京都のITベンチャーである株式会社Ristに転職されます。

 Ristの主な業務内容は、人間にしか認識できない音声や視覚の情報を、深層学習を用いてAIに学習させ、判断させること。「機械学習を現実の問題に適用する作業を自動化するAutoML(自動機械学習)の一種である『AIパイプライン』の開発が私の役割です。AutoMLをビジネスユースとKaggleの両方に適用することが今後の目標ですね」と語ります。

 Kaggleでの競争は、大越氏にとって大変“エキサイティング”な挑戦とのこと。

 コミュニティ内でのランキングや実験、探求、そして共有を楽しんでいるそうです。「Kaggleのコンペティションに参加することは、刺激的という以外にもさまざまなメリットがあります。トップソルバーは、自分たちのソリューションを共有してくれるため、たとえ順位が悪くてもソリューションを検証して、何が足りないのかを考えることが可能です。

 私は勝敗にかかわらず、自分が参加した大会の上位解答を再現するようにしています。こうした共有や評価はビジネスにも応用でき、新しい手法が生まれれば、ビジネスや社会の問題解決にも活用できると考えています」。

データサイエンスのために設計されたエンタープライズクラスのマシン

 データサイエンティストという職種は、従来の科学者と同様に、データを分析して何かがどのように動作するかについての仮説を立て、その立証や否定を調査したり、データ内のパターンを特定して次に起こりうることの予測などをおこないます。

 社会では日々多くのデータが生み出され、データサイエンスは製造、医療、金融、政府機関などあらゆる分野で応用されています。

 しかしデータサイエンスの恩恵を受けるためには、適切なツールが必須です。

 Z by HP & NVIDIA Data Science Global Ambassadorである大越氏は、HP Z8 Desktop WorkstationとHP Z38c Curvedプロフェッショナル液晶モニター、HP ZBook Studio Mobile Workstationを使用。HP Workstation Zシリーズ導入前はクラウドコンピューティングシステムを利用されていましたが、あらかじめ環境が構築されたマシンと複数の強力なGPUにより、洞察速度と一度に実行できる実験数が大幅に向上したと言います。「一旦AIパイプラインが完成すれば、AI開発者はKaggleや研究機関で成果を上げている最新の手法を簡単に試すことが可能です。

HP Z8 Desktop WorkstationとHP Z38c Curvedプロフェッショナル液晶モニター

HP ZBook Studio Mobile Workstation

 今回の開発ではオープンなデータセットやKaggleのデータセットで実験をおこない、精度を検証しています。もしZ8のような強力なマシンが職場にあれば、開発スピードは大幅に速くなり、Kaggleで実行できる実験数も飛躍的に増加するでしょう。

 実際にパワフルなZを使って検証することで、開発するパイプラインに多くの手法を取り入れることができました」

 HP Workstation Zシリーズの導入効果を実感されているようです。

 これまではメモリの制約で高画質データや動画データなどは扱えず、できる実験は限られていました。NVIDIA RTX6000グラフィックスカードを搭載したHP Z8であれば、検証の幅が広がり、時間の節約にもなります。

 また「機械学習の分野では、評価すべき新しい手法がたくさんあります。並列かつ高速に実行できる実験の数を増やすことで、より質の高いソリューションをより早く実現できます」と、その可能性についても言及されます。

 困難な問題に取り組み、より良いソリューションを生み出すために、さまざまな手法を模索することは大きな価値があります。

 開発の現場でデータサイエンティストが新しい手法を研究、実装し、データセットで検証する。こうした一連のプロセスもパワフルなマシンなら迅速におこなうことが可能です。

 一方、大越氏が苦手としているのが計算環境の構築です。しかし、HPのソリューションにはあらかじめ環境構築ツールが組み込まれており、すぐに使える状態になっています。

 「環境構築の経験があまりなかったのですが即仕事に取りかかることができ、時間と手間を大幅に省くことができました。Python、Docker、PyCharm、PyTorch、Transformerを利用していますが、驚くべきパフォーマンスを発揮しています」。

 また、HP ZBook Studioは大越氏のワークスタイルに大きな影響を与えました。「携帯性に優れたノートPCにもかかわらず強力なGPUを搭載し、オフィスの外でも実験や開発ができます。これまで経験したことがない快適性で、可能性を感じています」。

大きな問題も解決可能に

 大越氏は、現実世界の課題解決に貢献する場で働いていることに感謝と誇りを持っており、その先の大きな可能性を感じていると話します。一般的にKaggleでは高い精度が重要とされていますが、ビジネスの現場ではさまざまな理由からデータサイエンティストが精度を捨ててしまうケースもあります。

 今後、Kaggleの高い自由度と可能性が、ビジネスの世界に新鮮な知見を提供できるかもしれません。

 「データサイエンスの進歩によって、より良いソリューションを検討、評価、検証ができるようになりました。そして、Z by HPのようなパワフルなツールにより、迅速な実行が可能となり、これまで難しかった課題にも取り組めるようになりました。

 研究者から最先端の企業まで、大きな問題を解決して真の変革を起こそうと考える人には、Z by HPは欠かせないツールだと言えるでしょう」と話す大越氏。

 これからもZ by HPは、データサイエンスの発展に貢献していきます。

At-a-glance: 大越拓実(日本)

  • • PetFinder.myの採用予測で1位を獲得するなど、Kaggleコンペティションで5つの金メダルを獲得したグランドマスター。
  • • 大学卒業後、AIスタートアップを設立
  • • DeNAのスポーツ分析データサイエンティスト
  • • Rist社のAutoMLデータサイエンティスト
  • • 野球が大好きです。

Kaggle: 学ぶ、競う、世界を変える

  • • 600 万人以上の Kaggle 登録者が、データサイエンスの問題を解決し、強力なツールやリソースにアクセスし、賞を競い合っています。
  • • 5 つのレベルがあります。Novice(初心者)、Contributor(貢献者)、Expert(専門家)、Master(マスター)、Grandmaster(グランドマスター)の5つの層があります。現在、211 名のグランドマスターがいます。
  • • Kaggle は、ジェスチャー認識の改善から CERN でのヒッグス粒子探索の改善まで、何百ものコンペを実施してきました。競技の結果、HIV の研究や交通量予測などのプロジェクトが成功しています。コンテストで得られた知見やKaggleで共有された情報は、企業のワークフローに反映され、ビジネスのあり方を変えています。

詳しくは www.kaggle.com をご覧ください。

ソリューションのハイライト:

HP Z8 G4 1125W PSU

  • • Dual Gold Xeon 6234 3.3GHz 8C - CPU
  • • NVIDIA RTX 6000-GPU
  • • 96GB(6×16GB)RAM
  • • Ubuntu 20.04
  • • データサイエンスソフトウェアスタック(日本未発売)

Z38cディスプレイ

  • • 37.5インチカーブドディスプレイ
  • • 3840×1600(60Hz)の解像度

HP ZBook Studio G7

  • • 約1.9キロ
  • • i9-10885Hプロセッサー
  • • 32GB RAM
  • • NVIDIA RTX 5000(16GB VRAM)
  • • 15.6インチディスプレイ
  • • Ubuntu 20.04
  • • データサイエンスソフトウェアスタック(日本未発売)

 人気のデータサイエンスツールがあらかじめ搭載されており、箱から出してすぐに使うことができます。

 Z by HP Data Science Software Stack –(日本未発売)

Zのパワー

  • • 処理時間を最大90%短縮
  • • インサイトまでの速度と同時に実行する実験の数が大幅に増加し、より高品質なソリューションを迅速に実現
  • • ZBookは強力なGPUとどこでも作業できるポータビリティを備えています。
  • • プリロードされているので、箱から出してすぐに使えます。

HP Z8 G4 Workstation

最高の拡張性と究極のパフォーマンスを持ったウルトラハイエンドモデル

img

最新インテル® Xeon® Platinum 8200 プロセッサー ファミリー搭載可能。
デュアル・プロセッサー構成時で最高48コア・96スレッドのシステムを実現。
NVIDIA ウルトラハイエンドグラフィックスNVIDIA Quadro RTX8000最大2基搭載可能。

詳細はこちら
リンクをクリップボードにコピーしました