データ基盤 の検索結果:

Google Cloud Next Tokyo ’23に登壇しました

…加工して顧客に届けるデータ基盤開発 @ucchi- 発表資料とアーカイブ 登壇後の質問 感想 GitLab を Google Cloud へ。移行の Tips と振り返り@sue445 発表資料とアーカイブ https://cloudonair.withgoogle.com/events/next-tokyo?talk=d1-inf-03 発表資料とアーカイブの閲覧には別途サイトへの登録(無料)が必要になります。 登壇後の質問 Q: gitのストレージのバックエンドにGCSは…

Fundamentals of Data Engineeringの社内読書会をやりました

…トフォーム開発部にてデータ基盤を整備しているkashiraと申します。 ピクシブではデータエンジニアリングのスキルアップを目的として、有志で Fundamentals of Data Engineering (洋書) の読書会を行いました。 www.oreilly.com この記事では、ピクシブのエンジニアがどのように日々のスキルアップを行なっているかの一例として紹介します。 なぜFundamentals of Data Engineeringを選んだのか? 私は業務として社…

【PIXIV MEETUP 2023登壇セッション】pixivisionを動かし続けるために

…レコードに関しては、データ基盤に退避させました。弊社のデータ基盤については、pixiv insideのデータ基盤に関する他の記事を御覧ください。 inside.pixiv.blog アーキテクチャ改善 身軽になったので、解釈が十分にできた機能が多くなり、全体の実装の整理について議論ができるようになります。加えて、その議論をこれまで整備した資料と照らし合わせて差分で検討できます。色々な案が出て、いくつかの改修を試みることがありますが、いまだ複雑性が高い箇所があり、実装を撤退する…

データ活用の推進に向けたデータのカタログ化

… 社内では全社横断のデータ基盤の運用保守や改善、データ活用推進の業務を担当しています。 今回はデータ活用を推進する目的で対応を進めた「データのカタログ化」についてお話をさせていただきたいと思います。 データのカタログ化とは 「データのカタログ」とは「データに関する情報(メタデータ)」を指します。 「データに関する情報」には様々なものがありますが、具体的には下記のようなものが挙げられます。 データの所有者や管理者 データがどのようなものかという説明 データを取り扱う上での留意事…

Dataplexのデータリネージ機能を導入した話

…トフォーム開発部にてデータ基盤を整備しているkashiraと申します。 ピクシブではデータガバナンス強化のために、Google Cloud Platform(GCP)のDataplexのデータリネージ機能を本番運用で使い始めました。 この記事では、「どのように導入したのか?」「導入によってどんな効果が出たのか?」について話していきます。 cloud.google.com データリネージとは? データリネージとは、データの流れを可視化する機能です。 BIやDWHで分析するデータ…

ピクシブにおける不当な目的での作品取得行為に対する対策技術について

…り組んでいきます。 データ基盤を用いた不正検知 ピクシブではGoogle BigQuery、Lookerを利用し、全サービスを横断したデータ基盤を構築しています。これらのデータを用いることで、不審なリクエストを繰り返しているアカウントの追跡を行っています。 今後精度・範囲・リアルタイム性といった観点で改善することで、ピクシブ上の様々な不正検知向上に取り組んでいきます。 類似画像検知 ピクシブ上に投稿されている作品と類似するものを自動的に検知するため、類似画像検出に関する技術研…

Digital Native Leader’s Meetup(第二回)に参加してきました

…iiです。 社内ではデータ基盤の運用保守や改善、データ活用の推進といった業務を担当しています。 先日、グーグル・クラウド・ジャパン合同会社様主催のMeetup企画「Digital Native Leader’s Meetup」にご招待をいただきましたので、そのイベントのレポートをさせていただきます。 Digital Native Leader’s Meetupって何? Google Cloudのプロダクトを利用している企業の方々が集まり、課題や知見、事例といった情報を交換をす…

BigQueryのストレージ料金を大きく減らした話

…トフォーム開発部にてデータ基盤を整備しているkashiraと申します。 BigQueryの大規模な料金改定が来ましたね。 cloud.google.com ピクシブでは、ストレージ料金に大きな課題を感じていたので、Preview版の時点からデータセットのストレージ請求モデルを非圧縮から圧縮に切り替えています(安くなるデータセットのみ)。 この記事では、このデータセットのストレージ請求モデルの切り替えがどれくらい効果があったのか、そして切り替え作業で地味に苦労したことについて話…

ピクシブでのデータメッシュについて

…トフォーム開発部にてデータ基盤を整備しているkashiraと申します。 ピクシブでは中央集権的なデータ組織ではなく、非中央集権的なデータ組織(データの民主化)を目指して活動してきました。 その結果データメッシュに近い形で運用出来ていると感じているので、これについて話したいと思います。 ピクシブで非中央集権データ組織を採用した背景 ピクシブでは社員数に対してプロダクト数が多い事情があります。(2023年3月1日時点で正社員294人、15プロダクト) 正しいデータ分析をすることに…

【後編】完全自社開発の広告システム、pixiv Adsを支える技術を大公開

…pixiv Adsのデータ基盤について紹介します。配信ログの取得にはCloud Loggingのシンク、DBのデータ取得にはDatastream for BigQueryを用いて、全てのデータをBigQueryへリアルタイムに流し込んでいます。どのサービスもサーバーレスでオートスケールするので、エンジニアはデータの加工や活用に集中できます。 閲覧やクリックといった生ログはそのままだと取り扱いづらいので、広告配信ログや配信サマリに加工してから活用します。ELTには、全社横断で整…

【前編】完全自社開発の広告システム、pixiv Adsを支える技術を大公開

…。広告配信ロジックとデータ基盤まわりの開発に携わることが多いです。 ucchi-:2021年新卒入社のucchi-(うっちー)です。アドプロダクト部で、主にデータ基盤やLookerの整備を行っています。 pixiv Adsの全体構成 pixiv Adsの主要部分のシステム構成の概要を紹介します。 pixiv Adsはほぼ全ての要素がGoogle Cloud上で構築されています。 Go言語で記述されている広告配信サーバーはKubernetes Engine上にデプロイされており…

「鮮度」と「精度」を両立させる広告データ基盤のつくり方

…pixiv Adsのデータ基盤では、大きく分けて以下の課題と向き合っています。 鮮度:広告の配信状況をリアルタイムに見たい クライアントは、ユーザーに広告を届けるため、常にお金を払い続けます。広告配信条件を誤ると、それだけお金を無駄にしてしまうため、少なくとも数十分以内に配信状況を確認できる必要があります 精度:広告の支払い金額は1円の誤差も許さない クライアントは、広告の配信ログから集計した配信実績に基づきお金を支払います。請求金額が絡むため、非常に高い精度のデータ品質が求…

データエンジニアリング互助会の取り組みについてご紹介します

…を解きほぐすために、データ基盤の力を借りつつ、改修などを推進しています。また、それ以外の日々の業務でも、集計、レポーティング、あるいはデータ整備そのもののためにデータ基盤を活用することは珍しくありません。 ただし、個々のエンジニアによる、データ基盤の利活用度合いにはムラがあります。データエンジニアリング互助会の司会進行を行っている私自身も、データ基盤の一部の処理を書くときに手間取ることがままあります。 まさにそうやって手間取っているとき、社内で同じような業務に携わる仲間と知見…

プロダクトチームの自走データ活用を技術で支えるデータ基盤整備エンジニアリングとは

…ラットフォーム開発部データ基盤チームのtohhyと申します。 2017年にピクシブに新卒で入社し、pixivプレミアムの開発チームでサーバサイドのエンジニアとして活動しつつ、並行して数値分析系の仕事を担当していました。 その過程で、分析で利用するデータ基盤の改善活動を自主的に進めていたのですが、2018年末にデータ駆動推進室という部署の立ち上げメンバーとして参加することになり、以後全社のデータ基盤の開発・運用を担当することになりました。 現在ではさらにデータ駆動推進室から派生…

ピクシブのこれからについて、COOとCTOから皆さまへお伝えします(前編)

…部でピクシブの配信、データ基盤などの設計、開発を行ってきました。2016年から ImageFlux の事業責任者を務め、2019年から技術開発本部本部長としてピクシブ全体のインフラストラクチャを担当しています。 そして2020年からCTOを拝命し、着任してからはピクシブの事業方針と技術的戦略をマッチさせるため、少しずつ方針転換を行なってきました。 ushio : ピクシブの企業理念である「創作活動がもっと楽しくなる場所をつくる」を実現するために、2019年から全社OKR事業目…

WACATE2019冬参加レポート 全員初参加!テスト漬けの二日間の感想は?

…Lookerといったデータ基盤を支えるエンジニアとして、データ基盤とそれが持つデータそのものの品質をどう担保していくか知見を得るために参加しました。 fono edvakf: 2019年12月までCTOとして全社のシステム設計と組織設計をしていました。WACATEに参加したのは、会社でシステムの品質を上げていくための品質ポリシーについてアイデアが得られたら、という経営者目線的な思いからでした。 edvakf shimashima: 皆さん、自己紹介ありがとうございます。ここで…

チームや職種の垣根を超えて爆速機能改善!BigQueryとデータポータルの活用事例をご紹介

…ueryはピクシブのデータ基盤として既に利用されています。よって、やるべきことは実は少なく、BigQueryで必要な情報をSELECTしたビューを作り、それを参照したダッシュボードを作るだけです。 本職のデータアナリストと連携したこともあり、ダッシュボードはあっという間に完成。また、追加でフィルタ機能などを盛り込み、さらに利便性を向上させることができました。問題を相談してからここまで、たった15分程度でした。 まとめ チームや職種の垣根を越えた連携によって、スプレッドシートか…

データ好きに捧ぐ。pixivのデータ活用事例と無限の可能性

…です。 分析を支えるデータ基盤と活用の工夫 ピクシブでは、上記の複数サービスを通して得た大量のデータを使いやすくするために、色々な工夫を凝らしています。その大きな工夫の1つがGoogleが提供しているデータウェアハウスプロダクト「BigQuery」の活用です。 BigQueryの主な利点として以下の3点が挙げられます。 分析用SQLの実行速度が速い メンテナンスコストが安い Google AnalyticsをはじめとするGoogle製品との連携が簡単 ピクシブではこうした特徴…