ヤフーデータサイエンスワークショップに行ったメモ
角田直行さん
Data infrastructure at scale
Yahoo のインフラの話
規模の紹介
100以上のサービス 日本の7割の人が使ってる
Dub ブラウザごとにカウントしたアクセス数5億
支えるデータインフラ
データパイプラインにおいて
使用しているツール
テラデータ Storm Hadoop
Oracle MySQL Cassandra
ロギング対象 15000 nodes
Hadoop 7000nodes
スマスマ会見時トラフィック 200億リクエスト
去年の同じ日で60億弱だから3倍以上。
これからの挑戦
指数関数的な扱うデータの増加
Hortonworks と協業してHadoop の改善
オープンソースへの貢献
オープンハードウェアへの貢献
Open compute project
海外データセンター
電力的なコスト
爆速機械学習サービス応用編
Arxive.org(間違っとるかも)
ベイジアンフィルタ的な話。
Kibana + elastic search
なぜビッグデータが選挙の予測を可能にするのか
ヤフービッグデータレポート
検索クエリは人の興味関心の分析に向いている
感情分析はtwitter の方が向いている
必要な目的に応じて様々な目的に対応したデータを活用する
コメント
コメントを投稿