ヤフーデータサイエンスワークショップに行ったメモ
角田直行さん Data infrastructure at scale Yahoo のインフラの話 規模の紹介 100以上のサービス 日本の7割の人が使ってる Dub ブラウザごとにカウントしたアクセス数5億 支えるデータインフラ データパイプラインにおいて 使用しているツール テラデータ Storm Hadoop Oracle MySQL Cassandra ロギング対象 15000 nodes Hadoop 7000nodes スマスマ会見時トラフィック 200億リクエスト 去年の同じ日で60億弱だから3倍以上。 これからの挑戦 指数関数的な扱うデータの増加 Hortonworks と協業してHadoop の改善 オープンソースへの貢献 オープンハードウェアへの貢献 Open compute project 海外データセンター 電力的なコスト 爆速機械学習サービス応用編 Arxive.org(間違っとるかも) ベイジアンフィルタ的な話。 Kibana + elastic search http://qiita.com/hiyuzawa/items/bad1a7e29fc8d1820bea なぜビッグデータが選挙の予測を可能にするのか ヤフービッグデータレポート 検索クエリは人の興味関心の分析に向いている 感情分析はtwitter の方が向いている 必要な目的に応じて様々な目的に対応したデータを活用する