ヤフーデータサイエンスワークショップに行ったメモ

角田直行さん

Data infrastructure at scale

Yahoo のインフラの話

規模の紹介

100以上のサービス日本の7割の人が使ってる

Dub ブラウザごとにカウントしたアクセス数5億

支えるデータインフラ

データパイプラインにおいて

使用しているツール

テラデータ Storm Hadoop

Oracle MySQL Cassandra

ロギング対象 15000 nodes

Hadoop 7000nodes

スマスマ会見時トラフィック 200億リクエスト

去年の同じ日で60億弱だから3倍以上。

これからの挑戦

指数関数的な扱うデータの増加

Hortonworks と協業してHadoop の改善

オープンソースへの貢献

オープンハードウェアへの貢献

Open compute project

海外データセンター

電力的なコスト

爆速機械学習サービス応用編

Arxive.org（間違っとるかも）

ベイジアンフィルタ的な話。

Kibana + elastic search

なぜビッグデータが選挙の予測を可能にするのか

ヤフービッグデータレポート

検索クエリは人の興味関心の分析に向いている

感情分析はtwitter の方が向いている

必要な目的に応じて様々な目的に対応したデータを活用する

白いバナナ