2016年1月30日土曜日

ヤフーデータサイエンスワークショップに行ったメモ



角田直行さん
Data infrastructure at scale

Yahoo のインフラの話
規模の紹介
100以上のサービス 日本の7割の人が使ってる
Dub ブラウザごとにカウントしたアクセス数5億

支えるデータインフラ
データパイプラインにおいて
使用しているツール
テラデータ Storm Hadoop 
Oracle MySQL Cassandra 
ロギング対象 15000 nodes
Hadoop 7000nodes

スマスマ会見時トラフィック 200億リクエスト
去年の同じ日で60億弱だから3倍以上。


これからの挑戦
指数関数的な扱うデータの増加
Hortonworks と協業してHadoop の改善
オープンソースへの貢献
オープンハードウェアへの貢献
Open compute project
海外データセンター
電力的なコスト



爆速機械学習サービス応用編
Arxive.org(間違っとるかも)
ベイジアンフィルタ的な話。


Kibana + elastic search 

なぜビッグデータが選挙の予測を可能にするのか
ヤフービッグデータレポート
検索クエリは人の興味関心の分析に向いている
感情分析はtwitter の方が向いている
必要な目的に応じて様々な目的に対応したデータを活用する

0 件のコメント:

コメントを投稿