Hadoop / Spark Conference Japan 2019(3月14日、東京)講演・LTのプログラムと申込み受付 | 日本Hadoopユーザー会      2019-04-20 00:20:12  詳細
日本Hadoopユーザー会主催イベント『Hadoop / Spark Conference Japan 2019 』 を3月14日に東京・品川区内で開催します。 本日2月21日より、申込み受付を開始いたしました。参加費は無料です。 イベント申込みWebサイト: https://hcj2019.eventbrite.com/ 今回は、Apache Hadoopの主要開発者であるArpit Agarwal氏(Clou...
http://hadoop.apache.jp/hcj2019-program/
スキーマレスカラムナフォーマット「Yosegi」で実現する スキーマの柔軟性と処理性能を両立したログ収集システム / Hadoop / S…      2019-03-22 20:20:22  詳細
スキーマレスカラムナフォーマット「Yosegi」で実現する スキーマの柔軟性と処理性能を両立したログ収集システム / Hadoop / Spark Conference Japan 2019 #hcj2019 1. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 2019年03月14日 井島 洸二 / ヤフー株式会社 Hadoop / Spark Conference Japan 2...
https://www.slideshare.net/techblogyahoo/hadoop-spark-conference-japan-2019-yosegi-135810726
hscj2019_ishizaki_public      2019-03-22 20:20:20  詳細
hscj2019_ishizaki_public 1. 石崎 一明 日本アイ・ビー・エム(株)東京基礎研究所 @kiszk DataFrameとDatasetの内部をのぞいてみる 1 2. About Me – Kazuaki Ishizaki ▪ IBM Research – Tokyoで研究員をしています https://ibm.biz/ishizaki – コンパイラ最適化、言語処理系実装、並列処理、が専門 ▪ 1996年より、IBM ...
https://www.slideshare.net/ishizaki/hscj2019ishizakipublic
An Insider’s Guide to Maximizing Spark SQL Performance      2019-03-22 20:20:19  詳細
An Insider’s Guide to Maximizing Spark SQL Performance 1. An Insider’s Guide to Maximizing Spark SQL Performance Xiao Li @ gatorsmile Japanese Hadoop/Spark Conf @ Tokyo | Mar 2019 1 2. About Me • Engineering Manager at Databricks • Apache Spark Committer and PMC Member • Previously, IBM Master In...
https://www.slideshare.net/ueshin/an-insiders-guide-to-maximizing-spark-sql-performance
20190314 PGStrom Arrow_Fdw      2019-03-22 20:20:18  詳細
20190314 PGStrom Arrow_Fdw 1. Arrow_Fdw PostgreSQLで大量のログデータを処理するための ハードウェア最適化アプローチ HeteroDB,Inc Chief Architect & CEO KaiGai Kohei <kaigai@heterodb.com> 2. 会社&自己紹介(1/2) ▌Who am I?  名前: 海外 浩平(かいがい こうへい)  所属: HeteroDB,Inc  バックグラウ...
https://www.slideshare.net/kaigai/20190314-pgstrom-arrowfdw
Hadoopは終わらない ―3年ぶり開催「Hadoop / Spark Conference Japan 2019」で日本人開発者が語ったこと:レポート|gihyo.jp … 技術評論社      2019-03-22 13:20:17  詳細
「Hadoopは終わった」のではなく,並列分散処理基盤として技術的に新しいフェーズに入った状況にある,その現状を正しく伝えたい - 本稿では基調講演に登壇した二人の日本人開発者の内容をもとに,Hadoopがいま直面している状況と,新たに向かおうとしているゴールについて俯瞰してみたいと思います。 クラウドサービス...
https://gihyo.jp/news/report/2019/03/1801
1日100個以上のHadoopクラスターを使い捨てる方法 / How to throw away 100 Hadoop clusters a day - Speaker Deck      2019-03-15 10:20:17  詳細
1日100個以上のHadoopクラスターを使い捨てる方法 / How to throw away 100 Hadoop clusters a day
https://speakerdeck.com/nakazax/how-to-throw-away-100-hadoop-clusters-a-day
データサイエンティストにおいて、最も需要のあるスキルとは | POSTD      2019-03-15 09:20:15  詳細
雇用者は何を求めているのか? データサイエンティストは、多くのことを知っていると期待されます。例えば機械学習、コンピュータ科学、統計、数学、データの可視化、コミュニケーション、そしてディープラーニングといったものです。これらの分野の中には、データサイエンティストが学んでいる可能性のある何十もの言語...
https://postd.cc/the-most-in-demand-skills-for-data-scientists/
LINE の全社員が必要に応じて担当サービスのデータを分析できる環境の構築 - LINE ENGINEERING      2019-03-14 23:20:14  詳細
この記事は、 LINE Engineering Blog 「夏休みの自由研究 -Summer Homework-」 の 2 日目の記事です。 LINE Data Labs のデータエンジニアの吉田啓二です。昨年から行っている「 LINE の全社員が必要に応じて担当サービスのデータを分析できる環境を構築・提供する」という取り組みをご紹介します。 LINE Data Labs とは...
https://engineering.linecorp.com/ja/blog/data-system-opens-its-doors-to-all-liners/
Amazon Elastic MapReduce (EMR) ではじめる Presto 入門 - あらびき日記      2019-03-13 16:20:15  詳細
Presto は日本語の入門書がなく、「Presto を運用することになったけど何から勉強すれば良いかわからない><」という人も多いのではないかと思います。そこで、Presto を運用する時にこの辺の内容を知っていれば、よりスムーズにキャッチアップできたかなぁと思うことをまとめてみました。 Hive connector を使いたいの...
https://abicky.net/2019/03/13/133531/
Looking back at Spark 2.x and forward to 3.0      2019-03-03 23:20:14  詳細
Looking back at Spark 2.x and forward to 3.0 1. Kazuaki Ishizaki (石崎 一明) IBM Research – Tokyo (日本アイ・ビー・エム(株)東京基礎研究所) @kiszk Looking back at Spark 2.x and forward to 3.0 1 2. About Me – Kazuaki Ishizaki ▪ Researcher at IBM Research - Tokyo https://ibm.biz/ishizaki – Compile...
https://www.slideshare.net/ishizaki/looking-back-at-spark-2x-and-forward-to-30
HadoopからDocker、そしてKubernetesの登場 分散システムの歴史を紐解く - ログミーTech      2019-02-19 11:20:24  詳細
HadoopからDocker、そしてKubernetesの登場 分散システムの歴史を紐解く 分散処理とコンテナ化インフラの面白い関係 #2/2 2018年3月23日から24日にかけて、レバレジーズ株式会社が主催する国内最大級のエンジニア向け技術イベント「MANABIYA -teratail Developer Days-」が開催されました。同社が運営するITエンジニア向...
https://logmi.jp/tech/articles/297612
データ基盤の3分類と進化的データモデリング #DPCT / 20190213 - Speaker Deck      2019-02-14 10:20:08  詳細
Data Pipeline Casual Talk (データパイプラインに関する知見をカジュアルに語る会) の発表資料です。 https://dpct.connpass.com/event/114040/ データ基盤の3分類と進化的データモデリング - 下町柚子黄昏記 http://yuzutas0.hatenablog.com/entry/2018/12/02/180000
https://speakerdeck.com/yuzutas0/20190213
HDFS vs. Cloud Storage: Pros, cons and migration tips | Google Cloud Blog      2019-01-20 15:20:14  詳細
With the recent merger of Hadoop companies Cloudera and Hortonworks, some are asking: Is the Hadoop file system officially dead? The news around this merger has reiterated the impact of the economics of cloud. Reports are now going as far as saying that using cloud storage can easily &#8220;crush...
https://cloud.google.com/blog/products/storage-data-transfer/hdfs-vs-cloud-storage-pros-cons-and-migration-tips
LINEとサイバーエージェントは「データ基盤の設計・マネジメント、データエンジニアリング」をどうサービス発展につなげているか?|TECH PLAY Magazine[テックプレイマガジン]      2019-01-11 23:20:18  詳細
TOP > TECH PLAY Magazine >  LINEとサイバーエージェントは「データ基盤の設計・マネジメント、データエンジニアリング」をどうサービス発展につなげているか? ユーザーの増加やサービスの多角化に伴い、各サービスの膨大なデータを収集・蓄積し、分析を行うことは、さらにサービスを発展させるために必要不可欠です。...
https://techplay.jp/column/433
ClouderaとHortonworksが合併を完了。現在の製品は少なくとも3年のサポートを提供 - Publickey      2019-01-09 11:20:15  詳細
Hadoopのディストリビューションベンダなどで知られるClouderaとHortonworksが、合併完了を発表しました。両社は2018年10月に合併を発表していました。 合併後の新生ClouderaのCEOとなったTom Reilly氏は次のようにコメントしています。 「業界をリードするエンタープライズ向けデータクラウドのプロバイダーとなること...
https://www.publickey1.jp/blog/19/clouderahortonworks3.html
Apache Kafkaにも注目 ―Hadoop, Spark,分散処理フレームワークをめぐる2019年:新春特別企画|gihyo.jp … 技術評論社      2019-01-08 16:20:15  詳細
あけましておめでとうございます。 今年も大規模データ向けの分散処理フレームワークの展望についてご紹介します。例年Apache HadoopとApache Sparkを中心にお届けしておりましたが,今年はこれらに加えて,2018年に活用が広がりが認知された分散メッセージシステムのApache Kafkaについても 同様に取り上げたいと思いま...
https://gihyo.jp/dev/column/newyear/2019/hadoop-spark-kafka
ヤフー発の OSS 、Multiple-Dimension-Spread(MDS)の紹介 - Yahoo! JAPAN Tech Blog      2018-12-26 20:20:30  詳細
はじめに こんにちは。 ヤフー株式会社 データ&サイエンスソリューション統括本部データプラットフォーム本部データデリバリー部の井島&大戸です。 今回は、ヤフー株式会社(以下ヤフー)が OSS として公開したカラムナストレージファイルフォーマットの Multiple-Dimension-Spread について、開発の背景を交えて紹介...
https://techblog.yahoo.co.jp/oss/introduction_of_datalake_and_mds/
2018年のApache Hadoopを振り返る - Qiita      2018-12-15 13:20:23  詳細
概要 そろそろApache Hadoopは終わったのでは? という話がありそうなので、ここ最近の状況を書きます。結論を言うとまだまだ終わってないですが、クラウド事業者が提供するマネージドサービスが充実してきたことにより、直接 Hadoopクラスタ上でジョブを実行したり、Hadoopクラスタを運用したりする人々は特定の企業に集...
https://qiita.com/aajisaka/items/b3ea0e8affea88b5c144
データエンジニアリング関連ソフトウェアの障害対応事例 - LINE ENGINEERING      2018-12-05 13:20:30  詳細
上記の通り、フェイルオーバー発生直前には RegistryAdminService という名前の thread が、全 thread 数のほとんど (97.6 %) を占めていたことがわかりました。 1-8. RegistryAdminService Thread 今度は、「この RegistryAdminService thread はどのようなものであるのか」を確認することにしました。この名前の threa...
https://engineering.linecorp.com/ja/blog/data-engineering-software-troubleshooting/