はじめに
こんにちは。CTO室プラットフォーム開発部のshigeniiです。
社内ではデータ基盤の運用保守や改善、データ活用の推進といった業務を担当しています。
先日、グーグル・クラウド・ジャパン合同会社様主催のMeetup企画「Digital Native Leader’s Meetup」にご招待をいただきましたので、そのイベントのレポートをさせていただきます。
Digital Native Leader’s Meetupって何?
Google Cloudのプロダクトを利用している企業の方々が集まり、課題や知見、事例といった情報を交換をすることにより、相互のサービスやプロダクトをより良いものにしていこう、ということが目的のようです。
今回はその第二回の開催で「これからのデータ戦略や、データ基盤の構築、運用を担う Data Engineer や Data Scientist 同士が集い、語り合える場」をオフラインで提供していただきました。
イベントはどんな感じ?
イベントのアジェンダは3つです。
- Google Cloud アップデート情報
- Customer Lightning Talk
- アンカンファレンス
今回イベントには40社近くの企業が参加されていたと思います。各社がいくつかのテーブルに分かれて座ってプレゼンのセッションを拝聴したり、グループディスカッションをする形式です。
なんと食事にお酒にと、ごちそうも振る舞っていただきました!
どのテーブルもわいわいガヤガヤとした雰囲気です。そのため、テーブルに集まった初対面の方々ともとてもリラックスして、終始和やかにイベントに参加をさせていただくことができました。
アンカンファレンスではどのテーブルもディスカッションが盛り上がっていました。
今回のイベントでは他社の方々とのアンカンファレンスを特に楽しみにしていたので、とても有意義な時間を過ごすことができました。
Google Cloud アップデート情報
ここでは詳しい内容をお伝えをすることができませんが、プロダクトのアップデートや最新の情報をお聞きすることができました。
※下記、一部を抜粋
- BigQueryのAutoscalingの話
- Log Analyticsの話
- BigQueryのObject Tablesの話
- BigQuery MLにまつわるアップデート
アップデート情報以外にも、LTとして「データサイロとデータメッシュ」のお話などもお聞きすることができました。
内容を要約すると、
- データメッシュという用語は、企業が扱うデータ量や複雑性が増していく中、非常に注目されている。
- 抽象的な概念だが、Google Cloudを利用しているユーザーにとっては、BigQuery、Analytics Hub、Dataplexを活用することで、技術的には実現のハードルは決して高くない
といった話でした。
各プレゼンを通して、Google Cloudプロダクトの中でも「Dataplex」と「Analytics Hub」が今後さらにアップデートに力を入れていくプロダクトなのかな・・・という印象を持ちました。
Customer Lightning Talk
BigQueryやLookerといったプロダクトを利活用されている企業様数社からのLTを聞くことができました。LTなので時間は短いものでしたが、貴重なお話を聞くことができました。
- BigQueryとRemote Functionsの組み合わせには様々な可能性がある。BigQueryと大規模言語モデルの組み合わせでレコメンドシステムを構築したお話。
- Data AnalyticsのソリューションであるLookerやLooker Studioを、社内外の要望で分類して活用するお話。
などのお話でした。
アンカンファレンス
アンカンファレンスとは、イベントでの講演者のお話を聞くセッションの形態とは異なり、イベントの参加者それぞれがテーマを出し合い、参加者同士でディスカッションし、参加者全員で作り上げるカンファレンスです。
いくつかのグループに分かれてディスカッションを行いました。
今回の主なテーマ
- 利用しているプロダクトは?
- 利用を検討しているプロダクトは?
- 最近の課題や困りごと。まわりに聞きたいことなど。
第二回の開催である今回は、「データ戦略や、データ基盤の構築、運用」が趣旨であったので、参加されている方は各社のデータエンジニア、データアナリストが多かった印象です。
弊社はもちろんのこと、参加されていたどの企業様もまわりに聞きたいことが山のようにあるように見えて、話のネタがつきることはありませんでした。
ディスカッションの時間も長くはありませんでしたので、一瞬で時間が過ぎてしまいました・・・。もっといろいろなことをお聞きしたかった!・・・と思いました。
まわりからはこんな声が聞こえてきました。
- データエンジニアの採用がなかなかできない
- パフォーマンス改善のため他プロダクトからBigQueryに移行した
- Looker導入したいけど費用が・・・
- データパイプラインのソリューションに何を使おうか迷っている
- データ活用って何をやってますか?
- データメッシュを考えたい
- データカタログを整備したい
- データ基盤まわりのコストの削減をしたい
- 個人情報の管理や権限まわりをどのようにしている?
様々な声が聞こえる中で、
- データやBIツールの活用事例を聞きたい!
といった声が一番多かったように感じます。 「データの活用事例」といったテーマのみでアンカンファレンスをしても面白そうです。
下記に各テーブルで交わされていたディスカッションの一部を紹介します。
データガバナンス・民主化について
- Lookerをメインに利用しているがエンジニアがいない部署をサポートしている。
- データの統制をするオーナーを決めて運用している。
- 営業担当さんはSQLが書けないので、集計済みデータを営業向けツールに連携している。
- BigQueryでデータマートを作り、Lookerでダッシュボードを作ってほとんどの社員で分析できるようにしている。
「データの民主化」として社員みんなにクエリを書けるようになってほしいが、クエリに書きなれていないメンバーがパフォーマンス的な問題を発生させてしまうという課題がある。
- BigQueryの分析料金モデルをオンデマンドから定額料金に変更した。
- Lookerを利用し、一人当たりのクエリ量を制限できる。
- データ基盤用のBIを作ったり、現在のジョブ状況をダッシュボードでモニタリングするとか。
- 実行できるプロジェクトを分けて安全性を担保するなど。
コスト管理のために導入した運用や設計など。
- BigQueryのコストはラベルで部署や用途毎に管理している。
- BigQueryで跳ねることがあり一部をAlloyDBに置き換えることを検討している。
- スロットは検討しているものの、正確な利用を把握するのが難しい。
- BIツールからのレポートを週次で見たりしている。
- 費用をかけているけど費用対効果が分からず、本当に必要かどうかわからないのが課題。
組織の拡大とデータ活用のスケール
- 過去にデータサイロの状況が各所で起きていて、プラットフォームを 1 個に寄せて中央集権的にデータを集めようとしている。
- 各プロダクトのチームにデータエンジニアを置いている。
- 非データエンジニアのケアが課題。古いSQLを使い続けたり。
- 頻繁にアクセスされるデータや PII のカラム、deprecated なテーブルなどを検知して抽出して弾く、といったオペレーションをしていきたい。
アンカンファレンスを通して私の一番の感想は、「各社さんが同じような課題感を持っていることがわかって、とても親近感が湧いた!」ということでした。
ピクシブでは秘密情報管理の強化やデータ基盤のコスト削減、データ品質改善のためのパイプラインの維新、データカタログを利活用したデータの民主化、また、横断的なデータマネジメント業務や組織の改善などに日々取り組んでいます。
inside.pixiv.blog inside.pixiv.blog
おわりに
今回のイベントでは随所で貴重なお話を聞くことができました。
特にアンカンファレンスでは普段はなかなかお聞きすることができないお話など、とても有益な情報をいただきました。
コロナ渦に入ってからこれまで、オフラインでのイベントは制限や自粛がなされていたりもしましたが、昨今ようやくオフラインでのイベントが開催できる状態になってきました。アンカンファレンスといった形式でのグループディスカッションをオンラインで行うこともできるかとは思いますが、オフラインで顔を見合わせて少しくだけた雰囲気でのワイワイとしたディスカッションは、とても話がしやすく良いものだなぁと実感しました。
このような機会を与えてくださったグーグル・クラウド・ジャパン関係者の皆様には、改めてお礼を申し上げます。
ピクシブではデータ基盤のさらなる改善や全社的なデータ活用に日々取り組んでいます。
私達と一緒に、より良いサービスやプロダクトづくりに参加していただける仲間をお待ちしています!