データ基盤の3分類と進化的データモデリング #DPCT / 20190213 - Speaker Deck      2019-02-14 10:20:08  詳細
Data Pipeline Casual Talk (データパイプラインに関する知見をカジュアルに語る会) の発表資料です。 https://dpct.connpass.com/event/114040/ データ基盤の3分類と進化的データモデリング - 下町柚子黄昏記 http://yuzutas0.hatenablog.com/entry/2018/12/02/180000
https://speakerdeck.com/yuzutas0/20190213
HDFS vs. Cloud Storage: Pros, cons and migration tips | Google Cloud Blog      2019-01-20 15:20:14  詳細
With the recent merger of Hadoop companies Cloudera and Hortonworks, some are asking: Is the Hadoop file system officially dead? The news around this merger has reiterated the impact of the economics of cloud. Reports are now going as far as saying that using cloud storage can easily “crush...
https://cloud.google.com/blog/products/storage-data-transfer/hdfs-vs-cloud-storage-pros-cons-and-migration-tips
LINEとサイバーエージェントは「データ基盤の設計・マネジメント、データエンジニアリング」をどうサービス発展につなげているか?|TECH PLAY Magazine[テックプレイマガジン]      2019-01-11 23:20:18  詳細
TOP > TECH PLAY Magazine >  LINEとサイバーエージェントは「データ基盤の設計・マネジメント、データエンジニアリング」をどうサービス発展につなげているか? ユーザーの増加やサービスの多角化に伴い、各サービスの膨大なデータを収集・蓄積し、分析を行うことは、さらにサービスを発展させるために必要不可欠です。...
https://techplay.jp/column/433
ClouderaとHortonworksが合併を完了。現在の製品は少なくとも3年のサポートを提供 - Publickey      2019-01-09 11:20:15  詳細
Hadoopのディストリビューションベンダなどで知られるClouderaとHortonworksが、合併完了を発表しました。両社は2018年10月に合併を発表していました。 合併後の新生ClouderaのCEOとなったTom Reilly氏は次のようにコメントしています。 「業界をリードするエンタープライズ向けデータクラウドのプロバイダーとなること...
https://www.publickey1.jp/blog/19/clouderahortonworks3.html
Apache Kafkaにも注目 ―Hadoop, Spark,分散処理フレームワークをめぐる2019年:新春特別企画|gihyo.jp … 技術評論社      2019-01-08 16:20:15  詳細
あけましておめでとうございます。 今年も大規模データ向けの分散処理フレームワークの展望についてご紹介します。例年Apache HadoopとApache Sparkを中心にお届けしておりましたが,今年はこれらに加えて,2018年に活用が広がりが認知された分散メッセージシステムのApache Kafkaについても 同様に取り上げたいと思いま...
https://gihyo.jp/dev/column/newyear/2019/hadoop-spark-kafka
ヤフー発の OSS 、Multiple-Dimension-Spread(MDS)の紹介 - Yahoo! JAPAN Tech Blog      2018-12-26 20:20:30  詳細
はじめに こんにちは。 ヤフー株式会社 データ&サイエンスソリューション統括本部データプラットフォーム本部データデリバリー部の井島&大戸です。 今回は、ヤフー株式会社(以下ヤフー)が OSS として公開したカラムナストレージファイルフォーマットの Multiple-Dimension-Spread について、開発の背景を交えて紹介...
https://techblog.yahoo.co.jp/oss/introduction_of_datalake_and_mds/
2018年のApache Hadoopを振り返る - Qiita      2018-12-15 13:20:23  詳細
概要 そろそろApache Hadoopは終わったのでは? という話がありそうなので、ここ最近の状況を書きます。結論を言うとまだまだ終わってないですが、クラウド事業者が提供するマネージドサービスが充実してきたことにより、直接 Hadoopクラスタ上でジョブを実行したり、Hadoopクラスタを運用したりする人々は特定の企業に集...
https://qiita.com/aajisaka/items/b3ea0e8affea88b5c144
データエンジニアリング関連ソフトウェアの障害対応事例 - LINE ENGINEERING      2018-12-05 13:20:30  詳細
上記の通り、フェイルオーバー発生直前には RegistryAdminService という名前の thread が、全 thread 数のほとんど (97.6 %) を占めていたことがわかりました。 1-8. RegistryAdminService Thread 今度は、「この RegistryAdminService thread はどのようなものであるのか」を確認することにしました。この名前の threa...
https://engineering.linecorp.com/ja/blog/data-engineering-software-troubleshooting/
データ基盤の3分類と進化的データモデリング - 下町柚子黄昏記 by @yuzutas0      2018-12-03 17:20:27  詳細
この記事は、下書き供養 Advent Calendar 2018 - Adventarの2日目の記事です。 めっちゃ専門的な内容になってしまいました。ごめんなさい。 某Slackでの議論内容をブログに書こうとしたのですが、下書きのまま放置していました。 Wednesday, August 15th と書いてあるので、約半年前の内容となります。 もくじ もくじ は...
http://yuzutas0.hatenablog.com/entry/2018/12/02/180000
Hadoop本第3版 3章 Hadoop分散ファイルシステムについて - Qiita      2018-11-23 18:20:17  詳細
*こちらはOpt社内で実施しているオライリーのHadoop本第3版の輪読会用資料になります 自己紹介 株式会社オプト シニアエンジニア @sisisin GitHub Twitter フロントエンドマン(Angular,AngularJS中心) スクラムマスター 最近インフラ周りも始めました Scalaも書いてます Hadoop本第3版第3章Hadoop分散ファイルシステ...
https://qiita.com/sisisin/items/488a85c4e9725e7ae6ab
Hiveでarray、struct型などをNULLにする方法 - MicroAd Developers Blog      2018-10-22 11:20:06  詳細
こんにちは。マイクロアドでサーバーサイドエンジニアをしている大澤です。 今回はApache HiveでComplex型(ARRAY, STRUCT, MAP, UNION)を使用している際に発生した問題と解決方法について紹介します。 問題の内容 Hive上に下記の様なテーブルが存在する場合を想定します。 CREATE TABLE example_table ( column1 INT, co...
https://developers.microad.co.jp/entry/2018/10/19/170001
Uber’s Big Data Platform: 100+ Petabytes with Minute Latency | Uber Engineering Blog      2018-10-19 10:20:08  詳細
By Reza Shiftehfar Uber is committed to delivering safer and more reliable transportation across our global markets. To accomplish this, Uber relies heavily on making data-driven decisions at every level, from forecasting rider demand during high traffic events to identifying and addressing bottl...
https://eng.uber.com/uber-big-data-platform/
ぐるなびデータ基盤の運用について - ぐるなびをちょっと良くするエンジニアブログ      2018-10-16 10:20:03  詳細
はじめまして。データマネジメントグループ DMPチームの瀧澤と申します。趣味は映画鑑賞と自宅のスマートホーム化です。 ぐるなびではデータ基盤の構築・運用を担当しています。 今回は私が運用しているデータ基盤環境の概要や導入経緯、運用のTipsをご紹介させていただこうと思います。 ぐるなびでの導入経緯 過去環境...
https://developers.gnavi.co.jp/entry/hadoop/
ClouderaとHortonworksが合併を発表。エッジからAIまでをカバーするデータクラウドの提供へ - Publickey      2018-10-05 23:20:09  詳細
ClouderaとHortonworksが合併を発表。エッジからAIまでをカバーするデータクラウドの提供へ 統合後の新会社のCEOにはクラウデラのCEOであるTom Reilly氏が、COOにはHortonworksのCOOであるScott Davidson氏がそれぞれ就任予定。 HortonworksのCEO Rob Bearden氏は新会社の取締役に就任予定。また、HortonworksのChief Pr...
https://www.publickey1.jp/blog/18/clouderahortonworksai.html
ClouderaとHortonworksが52億ドルの合併を発表 | TechCrunch Japan      2018-10-05 00:20:10  詳細
かつて高い評価を受けたオープンソースプラットフォームであるHadoopは、長年にわたり多くの企業とベンダーのエコシステムを生み出した。そうした集団から、いくつかの大企業が生まれるだろうと信じられていたが、予想通り2014年にはHortonworksが公開を果たした。その3年後にはClouderaが続いたが、やがて市場は鈍化し...
https://jp.techcrunch.com/2018/10/04/cloudera-and-hortonworks-announce-5-2-billion-merger/
Hadoop チューニング | GMOアドパートナーズグループ TECH BLOG byGMO      2018-10-04 14:20:08  詳細
GMOアドマーケティングのT.Cです。 入社してから今までPHP, Ruby On Rails, Java, Spark, JavaScriptなどの様々な言語を使った開発に関わることでどんどん開発の幅が広くなりましたが、プロジェクトで運用しているHadoopクラスタについては関わる機会がなかったので、以前から興味を持っていたこともあって今回勉強して...
https://techblog.gmo-ap.jp/2018/10/01/hadoop-%E3%83%81%E3%83%A5%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0/
Cloudera and Hortonworks Announce Merger to Create World's Leading Next Generation Data Platform and Deliver Industry's First Enterprise Data Cloud - Hortonworks      2018-10-04 10:20:12  詳細
Establishes a superior unified platform and clear industry standard from the Edge to AI Strategic combination accelerates market development, fuels innovation and produces substantial benefit for customers, partners and community PALO ALTO, Calif. and SANTA CLARA, Calif., October 3, 2018 — Cloude...
https://hortonworks.com/press-releases/cloudera-hortonworks-announce-merger-create-worlds-leading-next-generation-data-platform-deliver-industrys-first-enterprise-data-cloud/
Asakusa 0.10.0 - 急がば回れ、選ぶなら近道      2018-09-29 12:20:09  詳細
Asakusa 0.10.0について あけましておめでとうございます。今年もよろしくお願いします。 のっけからアレですが、これはAsakuas Advent Calendar 2017のエントリーなわけ(個人的には12/31までがクリスマスとかそんな感じの年末催事なのでそのつもり:2017/12/30に追記)(って書いてたら、年が明けたけど、個人的にはあ...
https://okachimachiorz.hatenablog.com/entry/20180105