Partition Management in Hadoop - Cloudera Engineering Blog      2019-06-10 00:20:12  詳細
Guest blog post written by Adir Mashiach In this post I’ll talk about the problem of Hive tables with a lot of small partitions and files and describe my solution in details. A little background In my organization,  we keep a lot of our data in HDFS. Most of it is the raw data but a significant a...
https://blog.cloudera.com/blog/2019/05/partition-management-in-hadoop/
DBEvents: A Standardized Framework for Efficiently Ingesting Data into Uber's Apache Hadoop Data Lake | Uber Engineering Blog      2019-05-26 21:20:09  詳細
Keeping the Uber platform reliable and real-time across our global markets is a 24/7 business. People may be going to sleep in San Francisco, but in Paris they’re getting ready for work, requesting rides from Uber driver-partners. At that same … The post DBEvents: A Standardized Framework for Eff...
https://eng.uber.com/dbevents-ingestion-framework/
Java11へのマイグレーションガイド ~Apache Hadoopの事例~      2019-05-22 10:20:11  詳細
2. 多数のlibraryが相互依存している状態なので、バージョンのデッドロックみたいなことがよく起こる。Hadoopを利用している、言い換えると、Hadoopに依存しているライブラリは世の中に多数あるが、それらのライブラリの開発者も、このjar hellと呼ばれる状況に困っています。 3. Hadoopはmulti packageのプロダクトなの...
https://www.slideshare.net/techblogyahoo/java11-apache-hadoop-146834504
Introducing LINE Games analytics environment - LINE ENGINEERING      2019-05-14 12:20:10  詳細
Myunghoon Yi | 2019.05.13 I am responsible for collecting, processing and storing data at GROWTHY Platform Team. Big data and data analysis have long been popular key words in the IT world. Nowadays, they are no longer a choice but a necessity. Everyone is piling up and digging up data to find a ...
https://engineering.linecorp.com/en/blog/line-game-data-analysis/
Hadoopのドキュメントを読む - Qiita      2019-04-30 18:20:15  詳細
要約 コミュニティ版 Hadoopのドキュメントを読むためのノウハウを紹介する なぜコミュニティか? 本家で起こるバグは、別のDistributionでも(大抵は)起こる。だから本家もウォッチしておきたい (些細な)例: ドキュメントのトップページにある謎のタイポ "Äôs" 本家のサイト: http://hadoop.apache.org/docs/r2.2.0/ CDH5...
https://qiita.com/ajis_ka_old/items/4d0373c68c2906c2bf3a
分散型データストアApache Kuduの特徴とユースケース | Think IT(シンクイット)      2019-04-24 19:20:15  詳細
はじめに ネットワークに接続されたデバイスの普及により、さまざまな機器が大量のデータを生成するIoT(Internet of Things)が進展しています。また、AI・機械学習技術の発展により、この大量のデータを活用したデータ分析が注目を集めています。 このような背景から、情報システムが収集・蓄積すべきデータ量は急激に...
https://thinkit.co.jp/article/15893
Hadoop / Spark Conference Japan 2019(3月14日、東京)講演・LTのプログラムと申込み受付 | 日本Hadoopユーザー会      2019-04-20 00:20:12  詳細
日本Hadoopユーザー会主催イベント『Hadoop / Spark Conference Japan 2019 』 を3月14日に東京・品川区内で開催します。 本日2月21日より、申込み受付を開始いたしました。参加費は無料です。 イベント申込みWebサイト: https://hcj2019.eventbrite.com/ 今回は、Apache Hadoopの主要開発者であるArpit Agarwal氏(Clou...
http://hadoop.apache.jp/hcj2019-program/
スキーマレスカラムナフォーマット「Yosegi」で実現する スキーマの柔軟性と処理性能を両立したログ収集システム / Hadoop / S…      2019-03-22 20:20:22  詳細
スキーマレスカラムナフォーマット「Yosegi」で実現する スキーマの柔軟性と処理性能を両立したログ収集システム / Hadoop / Spark Conference Japan 2019 #hcj2019 1. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 2019年03月14日 井島 洸二 / ヤフー株式会社 Hadoop / Spark Conference Japan 2...
https://www.slideshare.net/techblogyahoo/hadoop-spark-conference-japan-2019-yosegi-135810726
hscj2019_ishizaki_public      2019-03-22 20:20:20  詳細
hscj2019_ishizaki_public 1. 石崎 一明 日本アイ・ビー・エム(株)東京基礎研究所 @kiszk DataFrameとDatasetの内部をのぞいてみる 1 2. About Me – Kazuaki Ishizaki ▪ IBM Research – Tokyoで研究員をしています https://ibm.biz/ishizaki – コンパイラ最適化、言語処理系実装、並列処理、が専門 ▪ 1996年より、IBM ...
https://www.slideshare.net/ishizaki/hscj2019ishizakipublic
An Insider’s Guide to Maximizing Spark SQL Performance      2019-03-22 20:20:19  詳細
An Insider’s Guide to Maximizing Spark SQL Performance 1. An Insider’s Guide to Maximizing Spark SQL Performance Xiao Li @ gatorsmile Japanese Hadoop/Spark Conf @ Tokyo | Mar 2019 1 2. About Me • Engineering Manager at Databricks • Apache Spark Committer and PMC Member • Previously, IBM Master In...
https://www.slideshare.net/ueshin/an-insiders-guide-to-maximizing-spark-sql-performance
20190314 PGStrom Arrow_Fdw      2019-03-22 20:20:18  詳細
20190314 PGStrom Arrow_Fdw 1. Arrow_Fdw PostgreSQLで大量のログデータを処理するための ハードウェア最適化アプローチ HeteroDB,Inc Chief Architect & CEO KaiGai Kohei <kaigai@heterodb.com> 2. 会社&自己紹介(1/2) ▌Who am I?  名前: 海外 浩平(かいがい こうへい)  所属: HeteroDB,Inc  バックグラウ...
https://www.slideshare.net/kaigai/20190314-pgstrom-arrowfdw
Hadoopは終わらない ―3年ぶり開催「Hadoop / Spark Conference Japan 2019」で日本人開発者が語ったこと:レポート|gihyo.jp … 技術評論社      2019-03-22 13:20:17  詳細
「Hadoopは終わった」のではなく,並列分散処理基盤として技術的に新しいフェーズに入った状況にある,その現状を正しく伝えたい - 本稿では基調講演に登壇した二人の日本人開発者の内容をもとに,Hadoopがいま直面している状況と,新たに向かおうとしているゴールについて俯瞰してみたいと思います。 クラウドサービス...
https://gihyo.jp/news/report/2019/03/1801
1日100個以上のHadoopクラスターを使い捨てる方法 / How to throw away 100 Hadoop clusters a day - Speaker Deck      2019-03-15 10:20:17  詳細
1日100個以上のHadoopクラスターを使い捨てる方法 / How to throw away 100 Hadoop clusters a day
https://speakerdeck.com/nakazax/how-to-throw-away-100-hadoop-clusters-a-day
データサイエンティストにおいて、最も需要のあるスキルとは | POSTD      2019-03-15 09:20:15  詳細
雇用者は何を求めているのか? データサイエンティストは、多くのことを知っていると期待されます。例えば機械学習、コンピュータ科学、統計、数学、データの可視化、コミュニケーション、そしてディープラーニングといったものです。これらの分野の中には、データサイエンティストが学んでいる可能性のある何十もの言語...
https://postd.cc/the-most-in-demand-skills-for-data-scientists/
LINE の全社員が必要に応じて担当サービスのデータを分析できる環境の構築 - LINE ENGINEERING      2019-03-14 23:20:14  詳細
この記事は、 LINE Engineering Blog 「夏休みの自由研究 -Summer Homework-」 の 2 日目の記事です。 LINE Data Labs のデータエンジニアの吉田啓二です。昨年から行っている「 LINE の全社員が必要に応じて担当サービスのデータを分析できる環境を構築・提供する」という取り組みをご紹介します。 LINE Data Labs とは...
https://engineering.linecorp.com/ja/blog/data-system-opens-its-doors-to-all-liners/
Amazon Elastic MapReduce (EMR) ではじめる Presto 入門 - あらびき日記      2019-03-13 16:20:15  詳細
Presto は日本語の入門書がなく、「Presto を運用することになったけど何から勉強すれば良いかわからない><」という人も多いのではないかと思います。そこで、Presto を運用する時にこの辺の内容を知っていれば、よりスムーズにキャッチアップできたかなぁと思うことをまとめてみました。 Hive connector を使いたいの...
https://abicky.net/2019/03/13/133531/
Looking back at Spark 2.x and forward to 3.0      2019-03-03 23:20:14  詳細
Looking back at Spark 2.x and forward to 3.0 1. Kazuaki Ishizaki (石崎 一明) IBM Research – Tokyo (日本アイ・ビー・エム(株)東京基礎研究所) @kiszk Looking back at Spark 2.x and forward to 3.0 1 2. About Me – Kazuaki Ishizaki ▪ Researcher at IBM Research - Tokyo https://ibm.biz/ishizaki – Compile...
https://www.slideshare.net/ishizaki/looking-back-at-spark-2x-and-forward-to-30
HadoopからDocker、そしてKubernetesの登場 分散システムの歴史を紐解く - ログミーTech      2019-02-19 11:20:24  詳細
HadoopからDocker、そしてKubernetesの登場 分散システムの歴史を紐解く 分散処理とコンテナ化インフラの面白い関係 #2/2 2018年3月23日から24日にかけて、レバレジーズ株式会社が主催する国内最大級のエンジニア向け技術イベント「MANABIYA -teratail Developer Days-」が開催されました。同社が運営するITエンジニア向...
https://logmi.jp/tech/articles/297612
データ基盤の3分類と進化的データモデリング #DPCT / 20190213 - Speaker Deck      2019-02-14 10:20:08  詳細
Data Pipeline Casual Talk (データパイプラインに関する知見をカジュアルに語る会) の発表資料です。 https://dpct.connpass.com/event/114040/ データ基盤の3分類と進化的データモデリング - 下町柚子黄昏記 http://yuzutas0.hatenablog.com/entry/2018/12/02/180000
https://speakerdeck.com/yuzutas0/20190213
HDFS vs. Cloud Storage: Pros, cons and migration tips | Google Cloud Blog      2019-01-20 15:20:14  詳細
With the recent merger of Hadoop companies Cloudera and Hortonworks, some are asking: Is the Hadoop file system officially dead? The news around this merger has reiterated the impact of the economics of cloud. Reports are now going as far as saying that using cloud storage can easily &#8220;crush...
https://cloud.google.com/blog/products/storage-data-transfer/hdfs-vs-cloud-storage-pros-cons-and-migration-tips