Pivot Table

を、はじめて仕事で使えた・・・。

ログを集計するなかログの種別をあらわす type の列とそのイベントの発生回数をあらわす count の列があり、そのほかに日付の列があり、イベントの種別ごとに 日付/回数 を plot したい。そこで pivot. 絵に描いたような例なので特筆すべきことは何もないのだけれど、まあ、うれしいじゃん。Java 初心者が初めて Java の generics のクラスを自分で書いた、みたいな種類の喜び。わかりますかね。わかんなくていいですが。


もともとこの作業はダッシュボード (Redash 的なやつ) の上でやっており、しかしそのツールは pivot をサポートしてないので Spreadsheet を export してそっちで続きを処理した。

が、なんかおかしいな・・・と考えるに去年は BigQuery 業務を Pandas でやっていたのを思い出した。Dashboard って定期的にモニタリングするにはいいけど探索的な作業には向かないじゃん。そういえば。データ解析ごっこ一年ぶりくらいなのですっかり忘れてたよ。

今のチームはデータのありかが BigQuery でなく内製の Dremel なため(ほぼ同じだけど) Pandas は標準でサポートしてない。 さて・・・と思ったが社内の Datalab 的なやつ(ほぼ同じ)を触ってみると Dremel Pandas がサポートされていた。よしよし。去年は手元で Jupyter を動かしていたけれど、今や Datalab 的なやつで作業できる。手元になにもいらない。めでたい。


追記: Datalab ではなくて Colab だった。