MLD: Goodfellow, Chapter 10

Sequence Modeling: Recurrentand Recursive Nets.

それなりに面白かった。Sequence-to-Sequence とかもでてきて、おおコレが話にきいていたアレか、と思うなど。

CNN も RNN もなんとかして parameter sharing をしつつ構造に関する prior knowledge をネットワークに埋め込もうとしているという点が腑に落ちたのはこの本を読んで良かったところだと思う。系統だった理解というやつ。のはず。

RNN, 前にやった時は結局どうやってデータを食わすのかよくわからず frustration が溜まったけれど、その後 Keras や TF のサンプルを眺めてデータは適当にぶったぎって固定長(未満)にそろえてつっこむ、ということを理解して以来 demythify された。そういう practical matter は理論的な本でも一応説明してほしいよなあ。

そのほか:

  • Attention mechanism については 12 章までお預けだそう。
  • なぜ RNN は ReLU でなく tanh なのかなぞ。(Quoraに同じ質疑応答あり)
  • LTSM, Leaky Unit とかいって NN の非線形性を捨て線形な成分を混ぜて記憶とか言い張っているが、なんでそれでうまくいくのかなぞ。
  • 最後の方にでてきた Neural Turing Machine の話はさっぱりわからず。要復習。Arxiv, 解説, 解説.