Posts

前回集めた経済データをGiannone et al (2008)のマルチファクターモデルで推定し、四半期GDPを予測したいと思います。Giannoneらの論文ではUSデータを用いており、予測精度はエコノミストを超えることが実証されていました。今回は日本のデータで実証したいと思います。

Rでデータ集めをします。データ分析はデータ集めと前処理が7割を占めるといわれる中、データ集めを自動化すべくウェブスクレイピングを行いました。これで自動的にデータをアップデートすることが可能になりました。経済データはestatのapiが提供されており、それを用いれば代表的なデータを取得することができます。今回はRのパッケージであるrvestを使用しています。

19 May / / 競馬

今、競馬×データサイエンスが熱いです。ウマナリティクスなるものがあり、これまでのレース結果からなんらかのモデルを作成し、順位予想や回収率を高める馬券購入方法を考えようとする人が一定数いるようです。中には回収率100%を超える事に成功された方もいるようで、馬券市場には歪みがある事がわかります。ただし、その具体的な方法などは一般に公開はされておらず、そのインパクトがどれほどなのかもわかりません。今回はその第一歩として、競馬をデータ解析するためのデータを取得します。rvestを用いて、ごりごりにクローリングを行いました。

18 May /