ヤフーデータサイエンスワークショップに行ったメモ



角田直行さん
Data infrastructure at scale

Yahoo のインフラの話
規模の紹介
100以上のサービス 日本の7割の人が使ってる
Dub ブラウザごとにカウントしたアクセス数5億

支えるデータインフラ
データパイプラインにおいて
使用しているツール
テラデータ Storm Hadoop 
Oracle MySQL Cassandra 
ロギング対象 15000 nodes
Hadoop 7000nodes

スマスマ会見時トラフィック 200億リクエスト
去年の同じ日で60億弱だから3倍以上。


これからの挑戦
指数関数的な扱うデータの増加
Hortonworks と協業してHadoop の改善
オープンソースへの貢献
オープンハードウェアへの貢献
Open compute project
海外データセンター
電力的なコスト



爆速機械学習サービス応用編
Arxive.org(間違っとるかも)
ベイジアンフィルタ的な話。


Kibana + elastic search 

なぜビッグデータが選挙の予測を可能にするのか
ヤフービッグデータレポート
検索クエリは人の興味関心の分析に向いている
感情分析はtwitter の方が向いている
必要な目的に応じて様々な目的に対応したデータを活用する

コメント

このブログの人気の投稿

Callback関数を知らん人がまず理解すべきことのまとめ。

C言語でBluetoothスタックを叩きたい人のBluetooth開発入門その1

C++プログラミング入門(1) // 倉庫番プログラムの実装