Shinsaku Segawa

Shinsaku Segawa

Data Scientist

MCD Data Science Competition 開催の振り返り

MCD Data Science Competition 開催の振り返り

はじめに

データサイエンティストの瀬川です。少し前になりますが、2023年12月18日(月)にオフラインで主催した MCD Data Science Competition の振り返りをまとめたいと思います。

開催概要

MCD Data Science Competition(以降、MCDコンペ)はKaggleプラットフォーム上のCommunity Competitions機能を利用して実施したデータ分析コンペです。データ分析コンペとしては短めの6時間程度での競技時間でオフラインでの開催となりました。以下に開催概要をまとめます。

項目詳細
日時2023年12月18日 10:00 ~ 19:00(懇親会込み)
参加者数47名
参加企業数6社(エムシーデジタル含む)
チーム数12チーム
場所日比谷ミッドタウン 11F エムシーデジタルオフィス
タイムテーブル10:00 ~ 10:30 受付、開会式
10:30 ~ 16:45 コンペ
17:00 ~ 19:00 閉会式・懇親会

コンペ中は参加者の皆様にはエムシーデジタルオフィスの会議室やフリースペースにてチームごとに作業していただきました。

コンペ中の作業風景 コンペ中の作業風景

問題概要

今回は大学のある講義における各生徒の最終試験の点数を予測する問題を設定しました。
データセットは Open University Learning Analytics dataset として公開されているものを一部加工し用意しました。 問題の概要を以下にまとめます。

  • 目的変数: 生徒の試験点数
  • 評価指標: RMSE
  • データ概要
    • train.csv: ある講義と生徒の最終試験の点数のデータ
    • test.csv: 講義と生徒のデータ、各生徒が何点とれたかを予測する
    • vle.csv: (vle: Virtual Learning Environment)、生徒の受講履歴
    • student.csv: 生徒の属性情報 その他、特徴量となることを想定したデータファイル複数

工夫した点

エムシーデジタルとしては初めてのデータ分析コンペの主催となりましたが、参加者の皆様にとって有意義なコンペとなるようにいくつかの点で工夫しました。

問題の難易度調整

参加者が Kaggle などのデータ分析コンペに慣れている・いない関係なく学びがあるコンペになるようにコンペの設計を行いました。 初心者であっても独力で提出・スコアが得られるように train.csv だけでモデリングが完結できるシンプルなテーブルデータの問題を用意し、また上級者の方でも工夫の余地が多くあるように特徴量として利用できる複数のデータファイルを用意しました。 コンペ中は「何をしたらいいかわからない」や「時間が余った」というような状況にはならず、参加者の皆様には6時間のあいだ集中してコンペに取り組んでいただけたと思います。

Private Leaderboard公開時のShakeを事前に確認

データ分析コンペでは、Public Leaderboard(暫定結果)とPrivate Leaderboard(最終結果)にスコアや順位の差が発生することをShakeと言います。 大きくShakeが発生すると参加者が参加意義を感じにくくなる問題があります。 今回はそのような状況は避けたかったため事前に複数のモデリング設定PublicとPrivateでのスコア算出を行い大きくShakeしないことを確認しました。結果としては最大でも4位程度の順位の変動でちょうどよいくらいのShake幅で収まったのかなと思います。

うまくいかなかった点

ネットワーク環境の提供がうまくいかなかった

10:30のコンペ開始時に一斉に同一ネットワークからKaggleにアクセスしたためか、Kaggleからアクセス規制がされているような挙動が見られました。(参加者の多くがアクセスしても404ページに飛ばされてしまっていました) 幸い社内でポケットWiFi端末が複数余っていたため、各チームに配布しコンペを継続することが出来ました。

また2~3時間後には会社のネットワークからのKaggleのアクセスも可能になっていました。本番相当の人数でリハーサルすることは難しく事前対策は出来ませんでしたが、次回があれば反省を活かしたいと思います。

配布した名札が片面にしか名前を書いていなかった

初対面の方に多く参加頂いたので運営で名札を用意しました。大きな文字で名前を印刷したのですが、片面印刷のためひっくり返った状態では名前がわからなくなるという状況が多発しました。参加者の方に指摘いただきましたが、名札は両面印刷が必須と感じました。

参加者からの声

参加頂者の皆様からは概ね好評を頂いており、開催して良かったと感じています。以下にアンケートの抜粋を記載します。

「データがかなり身近で直感的に理解しやすいデータだったことが、議論が弾みやすくて良かった。一方で、もう少しデータ量が多いとチームごとに工夫のしようがあるのかなと思いました。」

「ベースとなるコードと次のヒントまであったのが、初心者としては取り組みやすかったです。」

「データ量、難易度など、どれもバランスよくとても楽しむことができました。」

「いろんなアプローチがあるお題の方が最後の解法発表が面白くなりそうだと思いました。」

参加者によって問題に関する受け取り方が変わるかと思いますが、次回があればどのレベルでも楽しめるような深みのある問題設計を検討したいと思います。

感想

今回のMCD Data Science Competitionの主催は非常にやりがいのある経験でした。時間をかけて準備した問題に、参加者の皆様が集中して取り組んでいる姿を見ることはとても嬉しい体験でした。またコンペを通じて参加者同士で交流することで、お互いに刺激を得るような環境を提供することが出来たかなと思います。 初回ということでシンプルなテーブルデータでの問題設定をしましたが、次回以降機会があれば画像やLLMなどを題材としてコンペ設計も面白そうと考えています。

最後になりますがコンペの運営に関してグループ会社への参加者の募集、会場や昼食など会社から大きなサポートを受けて実施することが出来ました。あらためて感謝申し上げます。エムシーデジタルでは技術力の向上のために支援や技術コミュニティサポートを継続して行っており、技術者にとって良い環境だと再認識することが出来ました。



エムシーデジタルでは、技術力向上のためのイベントや勉強会なども定期的に実施しています。もしエムシーデジタルでのキャリアに興味を持っていただいた方がいらっしゃいましたら、まずはカジュアルな面談から実施することも可能です。お気軽にお声掛けください!
採用情報や面談申込みはこちらから
RSS

Tags

Previous

Kaito Suzuki

Kaito Suzuki

TanStack Table の 設計とTips

自己紹介 2022年に中途入社した鈴木海斗です。フロントエンドやアルゴリズム開発を中心におこなっています。本記事ではフロントエンド開発でテーブルを作る時に利用可能なライブラリの一つで

  • #TechBlog
  • #TanStackTable

Next

So Nakashima

So Nakashima

トレーディングに活用する機械学習モデルの評価指標

1. 概要 データサイエンティストの中島です。この記事では、トレーディング分野で機械学習モデルの評価に使われる指標について解説します。 2. 導入 機械学習モデルは様々な業界や領域で活用されてい

  • #TechBlog
  • #機械学習