LINE の全社員が必要に応じて担当サービスのデータを分析できる環境の構築 : LINE Engineering Blog      2018-08-04 18:20:06  詳細
この記事は、 LINE Engineering Blog 「夏休みの自由研究 -Summer Homework-」 の 2 日目の記事です。 LINE Data Labs のデータエンジニアの吉田啓二です。昨年から行っている「 LINE の全社員が必要に応じて担当サービスのデータを分析できる環境を構築・提供する」という取り組みをご紹介します。 LINE Data Labs とは...
https://engineering.linecorp.com/ja/blog/detail/333
Apache Hadoop YARNとマルチテナントにおけるリソース管理      2018-07-27 08:20:02  詳細
Apache Hadoop YARNとマルチテナントにおけるリソース管理 1. Apache Hadoop YARNと マルチテナントにおけるリソース管理 2. 2 © Cloudera, Inc. All rights reserved. • YARN概要 • YARNアプリケーションの動作の仕組み • YARNにおけるリソース管理の基礎知識 • フェアスケジューラ • フェアスケジューラの設定の基本 •...
https://www.slideshare.net/Cloudera_jp/apache-hadoop-yarn-107568692
Apache Hadoop YARNとマルチテナントにおけるリソース管理      2018-07-26 09:20:02  詳細
Apache Hadoop YARNとマルチテナントにおけるリソース管理 1. Apache Hadoop YARNと マルチテナントにおけるリソース管理 2. 2 © Cloudera, Inc. All rights reserved. • YARN概要 • YARNアプリケーションの動作の仕組み • YARNにおけるリソース管理の基礎知識 • フェアスケジューラ • フェアスケジューラの設定の基本 •...
https://www.slideshare.net/Cloudera_jp/apache-hadoop-yarn-107282500
NameNode Analytics: PayPal’s Big Data Guardian | PayPal Engineering Blog      2018-07-23 20:20:02  詳細
It is no secret that the volume of data is exploding and the challenge of properly storing and maintaining that data has not gone away. One primary solution for storing and managing a vast volume of data is HDFS, or the Hadoop Distributed File System. This central component is responsible for mai...
https://www.paypal-engineering.com/2018/07/11/namenode-analytics/
分散型システム徹底入門 – Part 2. | POSTD      2018-07-20 12:20:03  詳細
Cassandra 先ほど触れたCassandraは分散型のNoSQLデータベースで、CAP定理のAとP(可用性と分断耐性)の特性を基準に最終的な一貫性が確保されています。ただ、このように言ってしまうと少し誤解を招くかもしれません。というのも、実際のところCassandraの設定は非常に柔軟性が高く、可用性を犠牲にして強い一貫性を提...
https://postd.cc/a-thorough-introduction-to-distributed-systems-2/
HadoopからDocker、そしてKubernetesの登場 分散システムの歴史を紐解く - ログミーTech(テック)      2018-07-02 20:20:08  詳細
2018年3月23日から24日にかけて、レバレジーズ株式会社が主催する国内最大級のエンジニア向け技術イベント「MANABIYA -teratail Developer Days-」が開催されました。同社が運営するITエンジニア向けのQ&Aフォーラム「teratail」の中で解決できない問題を解くため、一流エンジニアたちが一同に会して、プレゼンテーショ...
https://logmi.jp/297612
Apache Hadoopのインストール手順 - Qiita      2018-06-30 21:20:06  詳細
概要 Apache Hadoop と Hive のインストール手順です。 それぞれ別記事に分けて書きます。 目次 Apache Hadoopのインストール手順 Apache Hiveのインストール手順 HadoopでWordCountをやってみる Hadoopとは、ビッグデータを取り扱うための、分散処理のフレームワーク、基盤です。 この手順では、擬似的にスタンドアロー...
https://qiita.com/Esfahan/items/39fd1e2f8b755eacec65
MicroAdのデータ基盤 - MicroAd Developers Blog      2018-06-20 18:20:09  詳細
こんにちは。インフラエンジニアの@kanga333です。 最近マイクロアドではデータ基盤を刷新しました。 今回はデータ基盤の刷新に至る背景と新基盤での設計ポイントについてざっくり書いていきたいと思います。 刷新に至る背景 マイクロアドを長年支えてきた既存データ基盤は長年の改修の結果、色々な課題を抱えていました...
https://developers.microad.co.jp/entry/2018/05/24/131136
CentOS7 で Apache Hadoop の疑似分散モードを使ってみる - CUBE SUGAR CONTAINER      2018-06-19 08:20:05  詳細
Apache Hadoop はビッグデータ処理基盤を構築するための超有名なオープンソースソフトウェア。 Google の発表した論文を元にして MapReduce アルゴリズムと Hadoop Distributed File System (HDFS) が実装されている。 この Hadoop/HDFS を中心として Apache Hive や Apache HBase などのミドルウェアが動作する一大エコ...
https://blog.amedama.jp/entry/2017/05/15/230009
PySpark の DataFrame を SparkSQL で操作する - CUBE SUGAR CONTAINER      2018-06-19 08:20:04  詳細
Apache Spark には SQL の実行エンジンが組み込まれていて、そのインターフェースは SparkSQL と呼ばれている。 この機能を使うと Spark で主に扱われるデータ構造の DataFrame オブジェクトを SQL で操作できる。 今回は PySpark から DataFrame を SparkSQL で操作する方法について書いてみる。 使った環境は次の通り...
https://blog.amedama.jp/entry/2018/03/03/173257
PySpark のスクリプトファイルで引数を扱う - CUBE SUGAR CONTAINER      2018-06-19 08:20:03  詳細
今回は Apache Spark の Python インターフェースである PySpark について。 PySpark では定型的な作業についてはスクリプトファイル (*.py) にまとめて spark-submit コマンドで実行することになる。 その際に、動作に必要な引数をさばく方法について。 結論から先に書いてしまうと spark-submit コマンドでスクリプト...
https://blog.amedama.jp/entry/2018/03/17/113516
PySpark の DataFrame を SparkSQL で操作する - CUBE SUGAR CONTAINER      2018-06-08 17:20:09  詳細
Apache Spark には SQL の実行エンジンが組み込まれていて、そのインターフェースは SparkSQL と呼ばれている。 この機能を使うと Spark で主に扱われるデータ構造の DataFrame オブジェクトを SQL で操作できる。 今回は PySpark から DataFrame を SparkSQL で操作する方法について書いてみる。 使った環境は次の通り...
http://blog.amedama.jp/entry/2018/03/03/173257
MicroAdのデータ基盤 - MicroAd Developers Blog      2018-05-26 10:20:09  詳細
こんにちは。インフラエンジニアの@kanga333です。 最近マイクロアドではデータ基盤を刷新しました。 今回はデータ基盤の刷新に至る背景と新基盤での設計ポイントについてざっくり書いていきたいと思います。 刷新に至る背景 マイクロアドを長年支えてきた既存データ基盤は長年の改修の結果、色々な課題を抱えていました...
http://developers.microad.co.jp/entry/2018/05/24/131136
Scaling Uber’s Hadoop Distributed File System for Growth      2018-05-23 15:20:09  詳細
Three years ago, Uber Engineering adopted Hadoop as the storage (HDFS) and compute (YARN) infrastructure for our organization’s big data analysis. This analysis powers our services and enables the delivery of more seamless and reliable user experiences. We use Hadoop for both batch and streaming ...
https://eng.uber.com/scaling-hdfs/
Apache Hadoopの新機能Ozoneの現状      2018-05-16 20:20:10  詳細
Apache Hadoopの新機能Ozoneの現状 1. © 2017 NTT DATA Corporation Apache Hadoopの新機能Ozoneの現状 2017/11/29 株式会社NTTデータ OSSプロフェッショナルサービス 鯵坂 明 Hadoopソースコードリーディング 第24回 2. © 2017 NTT DATA Corporation 2  鯵坂 明 (Akira Ajisaka, @ajis_ka)  NTTデータ OSSプロフェッ...
https://www.slideshare.net/hadoopxnttdata/ozone-object-store-for-apache-hadoop-83448053
Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表 - Publickey      2018-05-16 14:20:09  詳細
Twitter、数十万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表 Twitterは、自社で運営している大規模なHadoopクラスタをGoogle Cloud Platformへ移行すると発表しました。 A new collaboration with Google Cloud - Twitter Twitterは基本的に自社でデータセンターを保有し運用してき...
https://www.publickey1.jp/blog/18/twitterhadoopgoogle_cloud_platform.html
ブラウザ上で簡単にビッグデータを扱えるOSS: Hue についての簡単な紹介 - 科学と非科学の迷宮      2018-05-15 16:22:26  詳細
ドワンゴさんの主催でHue Meetupが開催されることになったので、いい機会だから Hue について、自分の復習がてらまとめておきます。 Hue って何? Hadoopエコシステムを操作するためのWebインタフェースです。 Hadoopエコシステムの多くは、管理Web UIは持っていても、ユーザ用のWeb UIはありません。 ユーザがターミナ...
https://shiumachi.hatenablog.com/entry/2017/09/19/124401
hadoop - Hiveのクエリを何倍も速くする4つの方法 - Qiita      2018-05-15 16:22:25  詳細
はじめに HiveはHDFS上のデータをSQLで操作できるHadoopのエコシステムです。Facebook社により開発され、現在はApacheのトッププロジェクトの一つです。 Hiveがリリースされてから7年ほど時間が経ちました。 その間に他のビッグデータ用のSQLエンジンがいくつか登場しました。 これらのSQLエンジンの多くは、Hiveが苦手...
https://qiita.com/76fu/items/baad6e39aa6805a8b245