こんにちは、クリエイタープラットフォーム事務局 局長補佐のjaggyです。サービスを横断したデータの分析や経営戦略の立案に関わる仕事をしています。
今回はピクシブのデータの特長と活用事例について紹介させていただきます。 これからデータを扱っていく方にとって、何か参考になれば幸いです。
他にはない独特のデータ
まずピクシブの保有するデータの概要とその特徴について説明します。
pixivには現在、3,000万人以上のユーザー登録があり、1日あたり250〜300万のアクティブユーザーがいます。pixivを開始してから10年以上経ちますが、その間に蓄積されたユーザーの行動ログは膨大な量にのぼります。
また、pixivは世界中からアクセスを集めるサービスでもあり、新規登録ユーザーの6割が海外ユーザーであるほどです。国内サービスとしては貴重な、グローバルなデータを多く保有しています。
加えて、ピクシブではSNSだけではない多種多様のサービスを展開しています。たとえば、ECサービス、wiki、マンガアプリ、決済アプリ、ライブ機能など、様々な要素に関してユーザーの行動ログを保有しています。
複数のサービスを「ポップカルチャー」という事業領域に限定して提供していることもピクシブの特徴として挙げられます。その結果として、サービスのみならずカルチャー自体の傾向までデータから読み取ることが可能です。
分析を支えるデータ基盤と活用の工夫
ピクシブでは、上記の複数サービスを通して得た大量のデータを使いやすくするために、色々な工夫を凝らしています。その大きな工夫の1つがGoogleが提供しているデータウェアハウスプロダクト「BigQuery」の活用です。
BigQueryの主な利点として以下の3点が挙げられます。
- 分析用SQLの実行速度が速い
- メンテナンスコストが安い
- Google AnalyticsをはじめとするGoogle製品との連携が簡単
ピクシブではこうした特徴を持つBigQueryを利用することで、複雑な内容の分析を手軽に実行できる状態を作り上げています。
また他にも、「複数サービスのデータを一元管理したい」という意図でもBigQueryを活用しています。全てではありませんが、サービス単位で取得・保持しているユーザーの行動ログやDBデータをBigQueryに同期するようにしていっています。特筆すべきはGoogle Analyticsのデータで、pixivでは有料版のGoogleAnalyticsを利用しているのですが、有料版の場合Web画面上で設定するだけでBigQueryにデータを送り込むことができるため、開発コストをかけずにBigQueryにデータを集約することができています。
このように、とてもとても便利なBigQueryですが、エンジニア職もビジネス職も含む、社員のみんなが自由に使うには多少知識が必要になり、エンジニア以外にはとっつきづらい面もあります。BigQueryを活用するためには、SQLを書く必要があるからです。KPI等、日常的に参照するデータであればダッシュボードを用意するといったアプローチ(ピクシブでは、同じくGoogle製品である「Google Data Studio」を活用しています)を取ることもできますが、踏み込んだ分析を実施しようとすると、どうしてもSQLを書く必要性がでてきてしまいます。そこで、以下の3つのことを実践してみました。
- 社員に向けて勉強会を開催(主に新卒・ビジネス職向け)。
- 社員がよく使うSQLをリスト化して、コピペで使えるようなテンプレを作成。
- Slackにて、各チームの分析担当の情報共有ができるChannelを作成。
Slack Channelは、情報共有の他、DMでやってくる各々の相談案件を一元化させる目的でも使用しています。今では主に3つの使われ方をしています。
- 数値の取り方とSQLレビュー
モチベーションに応じた最適なデータ取得方法(どのテーブルからデータを取得するのがよいか等)や、それを実現するためのSQLに関して相談したり、レビューしあったりします。 - 結果の共有
分析結果や、それに紐づく考察内容を共有し合っています。 - 相談/駆け込み寺
突発的な相談や依頼を受けています。今後のことを考え、SQLの書き方をレクチャーすることもあります。
これらの運用を半年以上続けてみたところ、かなりの数の方にBigQueryをうまく活用していただけるようになりました。
また、分析やユーザーの行動に興味のある社員が多いことから、門戸を広く開け、権限周りに強いルールを設けることはせずに全社員がBigQueryを利用することができるようにしています。
活用事例
では、実際のデータ活用事例を紹介していきます。
A/Bテストを用いた改善施策の効果検証
pixivでは、仮説に基づく施策を検証する際などに、A/Bテストを実施しています。
たとえば以前、各ユーザーのフォローアクション数増加を狙い、作品をブックマークしたタイミングでフォロー導線を表示する、というUI改修を実施したことがありました。その際50%のユーザーのみを対象に新UIを解放し、この施策によって実際にフォロー数が増加するかをテストしました。その結果、有意な差が生じることが明らかになり、無事全ユーザーを対象にリリースされた案件でした。
pixivというサービスには、自前で用意したA/Bテスト用の基盤が備わっています。アクセスしたタイミングで各ユーザーにA/Bテスト対象かどうかを判別するためのIDを付与し、そのユーザーの行動ログにもA/Bテスト用のIDを紐づける仕組みになっています。BigQuery上のログデータにもA/Bテスト用のIDをセットで保存しているため、A/Bテストのグループごとの各アクション数を簡単に取得・比較できるようになっています。
KPIのトラッキング
サービスを改善するための施策を複数打っていくなかで、KPIを設定することもあります。そうした際は、BigQueryからデータを定期的に集め、グラフを自動的に更新するような仕組みを構築することが多いです。また、常に視界に入るところに数値を置いておくことも重要です。主要な数値を定期的にSlackに通知するbotを運用していたりもします。
次に、サービスの機能への活用についてです。
男女別人気順検索
昨年11月に公開した、作品の検索結果を男性・女性がつけたブックマーク数順に並べかえる機能です。この機能の実装にあたり、およそ42億件ほどあるpixivのブックマークを再集計する必要がありました。BigQueryを利用しない場合、「稼働しているデータベースで再集計の処理を行うことになるため実現は難しい」と考えられていた機能だったのですが、 この時、BigQueryにブックマークのデータを全部入れていたおかげで、たったの2分で初期データの取得処理が終わりました。
プッシュ通知
プッシュ通知は、必要ないユーザーに送ってしまうと逆効果になってしまうため、無作為に送って良いものではありません。「直近でログインがあったか?」「ユーザーをいつフォローしたか?」などの複雑なユーザ行動ログ集計をBigQuery上で実行することで、プッシュ通知を送るべきユーザーを決定しています。
検索ランキング
去年公開した「創作アイディアページ」に掲載している検索ランキングも、日に一度BigQueryを叩いて生成しています。ここでは、行動ログからタグごとの検索回数を算出し、トップ10件を表示する仕組みにしています(実際にはさらに複雑な算出ロジックを用いています)。「今、pixiv上でどのジャンルが流行しているのか」を投稿ユーザーが手軽に把握できるようになっています。
今後の展望
レコメンド改善
新しいサービスが続々と登場し、ユーザーの可処分時間の奪い合いがより加速する中で、ユーザーとコンテンツのマッチングは今後より重要になっていきます。pixivでは、作品のブックマークや閲覧履歴を元にレコメンドを行っていますが、そのチューニングにpixiv独自のデータを利用することができると考えています。
たとえば、pixivに投稿されている作品にはタグがついており、タグには百科事典のデータが紐づいています。これらを解析することで、ユーザーの趣味・嗜好データを把握し、コンテンツとマッチングさせることで、より作品の閲覧などのアクティビティを活性化させることができると考えています。
出版社とのコンテンツ開発
また、pixivコミックではたとえば『ヲタクに恋は難しい』『幸色ワンルーム』など、多くの出版社と共同でコンテンツ開発・運営を行っています。pixivコミック上の行動ログやユーザーの趣味嗜好のデータを匿名化した上でマンガの読者データを分析し、コンテンツ開発に生かしていくといった活用法も可能でしょう。
経営戦略への参考に
データを経営戦略の参考とするため、ダッシュボードの形でサービス横断のデータ可視化に取り組もうとしています。現状、サービス毎のデータの可視化を、ある程度形にはできているものの、サービスを横断して、どのようにピクシブ関連サービスを利用しているかについてはまだ解析ができていません。各サービスの併用率やユーザーのLTVなど、サービスを横断したデータを可視化することで、より高いレベルで経営戦略に関わっていけると考えています。
データ分析基盤の改善
また、データ分析基盤にも改善の余地があると考えています。
たとえば、現在は分析処理を実行する際に、生のユーザー行動ログを直接参照しています。BigQueryを利用している恩恵として、そうした運用であっても速度面において困ることは少ないです。
とはいえ、長期のデータを参照しようとすると扱うデータが膨大になり、それに応じて費用も積み重なっていきます。また、行動ログのデータ形式は必ずしも扱いやすいものではないので、行動ログを予めより扱いやすい形で要約しておき、分析する際にはそちらを参照するようにしていきたいと考えています。
たとえば、ユーザーのアクセスログはURLベースで残していますが、「検索結果ページ」のPV数は「日毎に」どの程度あるか、という単位で値を集計し、別テーブルに保存しておく、といったものを想定しています。
分析に関わる業務フローの改善
数値に紐づく業務フローもまだまだ効率化の余地があると考えています。サービス改善施策を継続的に実施していくなかで、どのタイミングにおいてどの数値を確認すべきか、開発チーム間で共通認識を持っておくことで意思決定スピードを早めることが期待できます。また、施策のサイクルを回していく中で得られた知見を蓄積していくことで、施策運用の効率化を押し進めることも可能になると考えています。具体的にどういったフローで運用しているか、どのような試みをしているかにつていは、また別の機会に詳細を紹介させていただければと思っています。
以上、ピクシブでのデータ活用法を中心に、ピクシブでデータ分析解析をすることの魅力をご紹介しました。もし一緒にデータ使って仕事したい方がいらっしゃればぜひご連絡ください!データを肴にお酒を一緒に飲みましょう!
ピクシブでは一緒に働く仲間を募集しています。
上記に興味がある方、ぜひ応募してみてください。 データを肴に一緒にお酒を飲みましょう!