MicroAdのデータ基盤 - MicroAd Developers Blog      2018-06-20 18:20:09  詳細
こんにちは。インフラエンジニアの@kanga333です。 最近マイクロアドではデータ基盤を刷新しました。 今回はデータ基盤の刷新に至る背景と新基盤での設計ポイントについてざっくり書いていきたいと思います。 刷新に至る背景 マイクロアドを長年支えてきた既存データ基盤は長年の改修の結果、色々な課題を抱えていました...
https://developers.microad.co.jp/entry/2018/05/24/131136
CentOS7 で Apache Hadoop の疑似分散モードを使ってみる - CUBE SUGAR CONTAINER      2018-06-19 08:20:05  詳細
Apache Hadoop はビッグデータ処理基盤を構築するための超有名なオープンソースソフトウェア。 Google の発表した論文を元にして MapReduce アルゴリズムと Hadoop Distributed File System (HDFS) が実装されている。 この Hadoop/HDFS を中心として Apache Hive や Apache HBase などのミドルウェアが動作する一大エコ...
https://blog.amedama.jp/entry/2017/05/15/230009
PySpark の DataFrame を SparkSQL で操作する - CUBE SUGAR CONTAINER      2018-06-19 08:20:04  詳細
Apache Spark には SQL の実行エンジンが組み込まれていて、そのインターフェースは SparkSQL と呼ばれている。 この機能を使うと Spark で主に扱われるデータ構造の DataFrame オブジェクトを SQL で操作できる。 今回は PySpark から DataFrame を SparkSQL で操作する方法について書いてみる。 使った環境は次の通り...
https://blog.amedama.jp/entry/2018/03/03/173257
PySpark のスクリプトファイルで引数を扱う - CUBE SUGAR CONTAINER      2018-06-19 08:20:03  詳細
今回は Apache Spark の Python インターフェースである PySpark について。 PySpark では定型的な作業についてはスクリプトファイル (*.py) にまとめて spark-submit コマンドで実行することになる。 その際に、動作に必要な引数をさばく方法について。 結論から先に書いてしまうと spark-submit コマンドでスクリプト...
https://blog.amedama.jp/entry/2018/03/17/113516
PySpark の DataFrame を SparkSQL で操作する - CUBE SUGAR CONTAINER      2018-06-08 17:20:09  詳細
Apache Spark には SQL の実行エンジンが組み込まれていて、そのインターフェースは SparkSQL と呼ばれている。 この機能を使うと Spark で主に扱われるデータ構造の DataFrame オブジェクトを SQL で操作できる。 今回は PySpark から DataFrame を SparkSQL で操作する方法について書いてみる。 使った環境は次の通り...
http://blog.amedama.jp/entry/2018/03/03/173257
MicroAdのデータ基盤 - MicroAd Developers Blog      2018-05-26 10:20:09  詳細
こんにちは。インフラエンジニアの@kanga333です。 最近マイクロアドではデータ基盤を刷新しました。 今回はデータ基盤の刷新に至る背景と新基盤での設計ポイントについてざっくり書いていきたいと思います。 刷新に至る背景 マイクロアドを長年支えてきた既存データ基盤は長年の改修の結果、色々な課題を抱えていました...
http://developers.microad.co.jp/entry/2018/05/24/131136
Scaling Uber’s Hadoop Distributed File System for Growth      2018-05-23 15:20:09  詳細
Three years ago, Uber Engineering adopted Hadoop as the storage (HDFS) and compute (YARN) infrastructure for our organization’s big data analysis. This analysis powers our services and enables the delivery of more seamless and reliable user experiences. We use Hadoop for both batch and streaming ...
https://eng.uber.com/scaling-hdfs/
Apache Hadoopの新機能Ozoneの現状      2018-05-16 20:20:10  詳細
Apache Hadoopの新機能Ozoneの現状 1. © 2017 NTT DATA Corporation Apache Hadoopの新機能Ozoneの現状 2017/11/29 株式会社NTTデータ OSSプロフェッショナルサービス 鯵坂 明 Hadoopソースコードリーディング 第24回 2. © 2017 NTT DATA Corporation 2  鯵坂 明 (Akira Ajisaka, @ajis_ka)  NTTデータ OSSプロフェッ...
https://www.slideshare.net/hadoopxnttdata/ozone-object-store-for-apache-hadoop-83448053
Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表 - Publickey      2018-05-16 14:20:09  詳細
Twitter、数十万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表 Twitterは、自社で運営している大規模なHadoopクラスタをGoogle Cloud Platformへ移行すると発表しました。 A new collaboration with Google Cloud - Twitter Twitterは基本的に自社でデータセンターを保有し運用してき...
https://www.publickey1.jp/blog/18/twitterhadoopgoogle_cloud_platform.html
ブラウザ上で簡単にビッグデータを扱えるOSS: Hue についての簡単な紹介 - 科学と非科学の迷宮      2018-05-15 16:22:26  詳細
ドワンゴさんの主催でHue Meetupが開催されることになったので、いい機会だから Hue について、自分の復習がてらまとめておきます。 Hue って何? Hadoopエコシステムを操作するためのWebインタフェースです。 Hadoopエコシステムの多くは、管理Web UIは持っていても、ユーザ用のWeb UIはありません。 ユーザがターミナ...
https://shiumachi.hatenablog.com/entry/2017/09/19/124401
hadoop - Hiveのクエリを何倍も速くする4つの方法 - Qiita      2018-05-15 16:22:25  詳細
はじめに HiveはHDFS上のデータをSQLで操作できるHadoopのエコシステムです。Facebook社により開発され、現在はApacheのトッププロジェクトの一つです。 Hiveがリリースされてから7年ほど時間が経ちました。 その間に他のビッグデータ用のSQLエンジンがいくつか登場しました。 これらのSQLエンジンの多くは、Hiveが苦手...
https://qiita.com/76fu/items/baad6e39aa6805a8b245
Hadoopと愉快な仲間たち - Qiita      2018-05-15 16:22:24  詳細
自分用のメモです。 ビッグデータ分散処理 Hadoop Spark インメモリー処理を主体 Storm リアルタイムHadoop Hadoop による分散データ処理: 第 1 回 導入編 Hadoop による分散データ処理: 第 2 回 拡張編 Hadoop による分散データ処理: 第 3 回 アプリケーション開発 Spark Apache Sparkは、Scalaで(Hadoopのような)分...
https://qiita.com/DG0426/items/7072b35761d43b78b634
Python - データフロー制御フレームワークLuigiを使ってビッグデータ解析をする - Qiita      2018-05-15 16:22:20  詳細
Luigiとは LuigiはPythonで書かれたデータフロー制御フレームワークです。 ストリーミング音楽配信大手のSpotifyが開発しています。ソニーと提携したことでも話題になりましたね。 Luigi公式レポジトリ 本家のプレゼン資料がわかりやすいです。 一般的にビッグデータ解析では、統計・機械学習を行う前に、クレンジングや...
https://qiita.com/colspan/items/453aeec7f4f420b91241
【要約】The world beyond batch: Streaming 101 - Qiita      2018-05-15 16:22:19  詳細
少し前の記事になりますが、オライリーにGoogleのTyler Akidau氏がストリーム処理についての記事を投稿していたので要約してみました。 とはいえ、一気に読んで訳したものですので、相応に粗く、用語の統一も多分ずれがあり、流れがわかればいい内容となっていますので、その前提で。 ただ、コメントは歓迎します。ここ...
https://qiita.com/kimutansk/items/447df5795768a483caa8
hadoop - ビッグデータを支える技術 - Qiita      2018-05-15 16:22:18  詳細
Hadoop http://hadoop.apache.org/ 大規模な分散処理を支えるJavaフレームワーク HadoopはGoogleのMapReduce、GFS(Google File System)の技術をベースとして作られた HadoopではMapReduceはそのまま「MapReduce(Hadoop/MapReduce)」、GFSは「HDFS(Hadoop Distributed File System)」という名前でそれぞれ開発・公開され...
https://qiita.com/kitaro_tn/items/ca330cd47ffe35aff43a
MacOSX 10.9 にHadoop2.2の開発環境(スタンドアロン)構築 - Qiita      2018-05-15 16:22:17  詳細
$ ssh-keygen -t rsa $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys $ vim ~/.ssh/config + Host localhost + HostName 127.0.0.1 + Port 22 + IdentityFile ~/.ssh/localhost_rsa
https://qiita.com/ma2k8/items/0cd34987211f5fe9ec2c
Prestoのパフォーマンス - Qiita      2018-05-15 16:22:16  詳細
きっかけ アドテクスキルアップゼミ カラムナーデータベース検証まとめという記事が公開されたのですが,Presto/Impalaの結果があまりにも散々で,これはさすがに何かおかしいんじゃないかという話になってました. 今だとすでに記事に注釈が入ってますが,Presto/Impalaは生のテキストファイルを対象にしていたのが原...
https://qiita.com/repeatedly/items/6ab95bdcbd5f708c2828