Udemy初夏のビッグセール開催中(~5/23)人気教材が1,300円~

【DEA-C01】AWS Data Engineer Associateとは?勉強方法と教材紹介

【AWS-DEA-C01】Data-Engineer-Associateとは?勉強方法と教材紹介アイキャッチ

当ブログにはPRを含みます。

2024年3月中旬、ベータ試験から通常の試験になったAWS Certified Data Engineer – Associateという資格試験があります。

新しくアソシエイトレベルの試験に加わったAWS認定です。

目次

Data Engineer Associate(DEA)の概要

アソシエイトレベルのAWS認定資格です。

もともとから存在する認定資格Data Analytics – Specialty(DAS)がベースになっています。SpecialtyからAssociateに変更されているので、難易度は易しくなっています。

2024年3月初旬時点ではベータ試験となっていましたが、2024年3月中旬に確認したところ、標準試験としてリリースされました。

AWS資格体系とData Engineer Associate(DEA)の位置づけ

AWS資格一覧とDEAの位置付け

AWSの資格は図の通り、レベルと分野で分かれています。

AWS認定資格にはFoundational(初級)レベル、Associate(中級)レベル、Professional(上級)レベル、Speciality(専門)があります。

Data Engineer Associate(DEA)はAssociate(中級)に当たる試験です。試験範囲はデータ分析や機械学習です。

AWS Certified Data Engineer – Associate は、コアデータ関連の AWS サービスのスキルと知識や、データパイプラインの実装、問題のモニタリングとトラブルシューティング、ベストプラクティスに従ってコストとパフォーマンスを最適化する能力を検証します。AWS テクノロジーを使用して分析や実用的なインサイトを得るためにデータを変換することにご関心がおありの場合、このベータ試験は、この新しい認定の最初の取得者の仲間入りをする機会を提供します。

https://aws.amazon.com/jp/certification/certified-data-engineer-associate/

Data Engineer Associate(DEA)出題範囲

試験範囲は以下となっています。※詳細な試験範囲は公式試験ガイドをご覧ください。

DEA試験範囲
  • 第 1 分野: データの取り込みと変換 (採点対象コンテンツの 34%)
  • 第 2 分野: データストア管理 (採点対象コンテンツの 26%)
  • 第 3 分野: データ運用とサポート (採点対象コンテンツの 22%)
  • 第 4 分野: データセキュリティとガバナンス (採点対象コンテンツの 18%)

難易度

AWS中級レベルの試験です。

レベル感的にはソリューションアーキテクトアソシエイト(SAA)に近いです。出題範囲はData Analytics – Specialty(DAS)と重複するところがあります。

難易度の目安

AWS社が難易度の目安を提示してくれています。(以下の経験がないと受験資格がないというわけではありません。)
初級:事前経験無し
中級:1年以上の実務経験
上級:2年以上の実務経験
専門:3年以上の実務経験

以下、Data Engineer Associate(DEA)のサンプル問題です。正解を確認する場合▼を押下してください。
※2024/3時点では日本語の練習問題が提供されるようになりました

あるデータエンジニアは、AWS Glue の抽出、変換、ロード (ETL) パイプラインをデプロイするための新しいアカウントを作成しました。パイプラインジョブは、ソース Amazon S3 バケットから raw データを取り込む必要があります。その後、パイプラインジョブは、変換されたデータを同じアカウントの宛先 S3 バケットに書き込みます。データエンジニアは、AWS Glue がソース S3 バケットと宛先 S3 バケットにアクセスするためのアクセス許可を含む IAM ポリシーを作成しました。データエンジニアは、ETL パイプラインを実行するために IAM ポリシー内のアクセス許可を AWS Glue に付与する必要があります。
これらの要件を満たすソリューションはどれですか。

A. IAMユーザを作成し、キーペアを作成する。このユーザにポリシーを適用し、Glueジョブにアクセスキーとシークレットアクセスキーを設定する

B. 適切な権限を付与したIAMポリシーを作成し、Glueジョブにアタッチする

C. 適切な権限を持つIAMポリシーを作成し、IAMロールにアタッチする。このIAMロールを使用するようにGlueジョブを設定する。

D. S3バケットそれぞれにリソースポリシーを作成する。

正解:C

IAMの知識があれば解ける問題でした。

A:この方法でも可能だが、アクセスキーとシークレットアクセスキーの管理が必要でセキュアではない。

B:ポリシーを直接ジョブにアタッチすることはできない。

C:正解。リソースに権限を与えるときの第一選択肢としてIAMロールが推奨される。

D:S3側ではなく、Glue側に権限を付与する必要がある。

Data Engineer Associate(DEA)試験概要

ベータ試験版から標準試験の内容に更新しました。

資格名 AWS Certified Data Engineer – Associate
試験時間 120分
出題形式 選択問題
言語 日本語、英語、韓国語、中国語
問題数 85問
合格ライン 720点/1000点
試験日 随時
試験場所 全国のピアソンテストセンター
または
試験監督付きオンライン受験
受験料 15,000 円(2024年4月1日前の料金)
20,000 円(2024年4月1日以降の料金)
合格発表 5営業日以内にメールで通知
(筆者は受験後1時間ほどでメールが来ました)
有効期限 3年
再認定試験は、認定資格が有効期限切れになる 60 日前から受験可能
受験要件 なし

Data Engineer Associate(DEA)勉強方法と教材

無料で使えるGCP公式模擬問題やUdemy教材がおすすめです。

Udemy教材は買い切りなので受験時期を決めかねている方にもおすすめです。購入後も継続アップデートされる教材が多数あります。

Udemyの教材がおすすめな理由
  • 30日以内であれば返金可能(気軽に始められる
  • 教材購入後もコンテンツがアップデートされる(頻繁にアップデートされるクラウド学習に最適
  • 不明点を講師に質問可能
  • スマホでも視聴可能(隙間時間の活用
  • 月に数回(2~3回)実施するセールでは数万円のコースも2,000円程度に割引される(安価!

価格は執筆当時です。変更される可能性があります。

教材 特徴 価格
AWS公式練習問題 20問の公式無料練習問題。
スキルビルダーの登録が必要です。
本番試験のレベル感を知ることができる
日本語が提供されている
無料
Udemy動画教材
AWS認定Data Engineer Associate(DEA-C01)試験 対策トレーニング icon
初心者にもわかりやすく解説してくれる動画教材です。
親切な解説(10時間)で網羅的に学べる
練習問題50問付属
図表中心の説明なので理解しやすい
定価:5,600円
セール時参考価格:1,600円
UdemyWEB問題集(日本語)
【DEA-C01対応】AWS認定 データエンジニア アソシエイト 模擬問題集+詳解 icon

模擬問題(110問)
解答と丁寧な解説が付属している
定価:2,600円
セール時参考価格:1,600円
UdemyWEB問題集(英語)
Practice Exams | AWS Certified Data Engineer Associate icon
英語模擬問題(215問)Google自動翻訳が利用可能
解答と丁寧な解説が付属している
問題数が豊富
定価:2,600円
セール時参考価格:1,600円

AWS公式模擬試験

無料の練習用模擬試験を利用できます。全20問で何度も受験することができます。

問題数は少ないですが公式が出しているだけあって、難易度や出題形式は本番試験ほぼそのままです。まずは解いてみて出題形式と難易度の把握に利用するのが良いと思います。

2024年3月初旬現在、日本語で提供されるようになりました。

この模擬試験を受験するにはAWSスキルビルダーへの登録が必要です。上記リンク先からも無料で登録できるのでおすすめです。

Udemy動画教材

UdemyにData Engineer Associate(DEA)の試験範囲を体系的に説明してくれる動画教材があります。

Data Engineer Associate(DEA)の全ての範囲を網羅している動画教材です。

本講座はAWSの主要サービスを理解できる上にData Engineer Associate(DEA)試験に合格できる構成になっています。

ベータ試験時から作成されている講座です。本試験化された後も内容が更新されている講座のため、早めに学習を始めたい方にとってもよい教材かと思います。

講座の内容
  • 約10時間の動画解説で試験範囲をすべて網羅
  • ハンズオン学習が収録されている
  • 50問の予想問題と解説

↓講座のリンクです。リンク先で20分程度のプレビューを無料視聴可能なのでぜひ確認してみてください。(定価:5,600円 セール時参考価格1,600円程度

AWS認定Data Engineer Associate(DEA-C01)試験 対策トレーニング icon

AWS_DEA_動画教材詳細

UdemyWEB問題集(日本語)

出題形式に慣れておくためにも繰り返し模擬問題を解いておくことがおすすめです。

Udemyで日本語のWEB問題集が発売されました。

本WEB問題集の特徴
  • 解答と丁寧な解説が付属している
  • 安い(定価でも2,600円)

110問で定価2,600円です。セール時には1,600円程度になることがあります。

【DEA-C01対応】AWS認定 データエンジニア アソシエイト 模擬問題集+詳解 icon

AWS_DEA_模擬問題日本語詳細説明

UdemyWEB問題集(英語)

本WEB問題集は筆者がベータ試験対策する際に使用しました。ベータ試験時は試験言語が英語だったため、翻訳せずにそのまま解きましたが、現在は標準試験となっているため、自動翻訳を使用することをおすすめします。

Practice Exams | AWS Certified Data Engineer Associate icon
本WEB問題集の特徴
  • 解答と丁寧な解説が付属している
  • 安い(定価でも2,600円)
  • 自動翻訳でもかなりわかりやすい日本語になる

翻訳方法は右クリック→日本語に翻訳でできます。(Chromeでの方法となります。)

英語教材の翻訳方法説明

以下、英語のWEB問題集サンプル問題を自動翻訳したものです。(十分意味が理解できると思いますが、場合によっては翻訳前の英語も見ておくと理解しやすい場合もあります。)

サンプル問題をご覧になっても問題の品質の高さと解説の丁寧さが伝わると思います。

自動翻訳された文章の例

A Cloud Data Engineering Consultant has been tasked with optimizing the data transfer process between Amazon S3 and Amazon Redshift for a client. The client’s data warehousing solution requires regular loading of large datasets into Redshift for complex querying, as well as periodic unloading of query results back into S3 for long-term storage and further processing. The consultant needs to ensure that these load and unload operations are performed efficiently and securely.

Which combination of methods should the consultant recommend to perform these operations effectively? (Select TWO)

A) Utilize the COPY command in Amazon Redshift to parallelize data loads from Amazon S3, making use of Redshift’s MPP (Massively Parallel Processing) architecture.

B) Use the INSERT INTO command to load data from S3 to Amazon Redshift, ensuring transactions are logged for data integrity.

C) Implement Redshift Spectrum to directly query data on Amazon S3 without loading it into Redshift, reducing data movement.

D) Configure Redshift to automatically unload query results to S3 using the UNLOAD command, with encryption enabled for data security.

E) Set up AWS Data Pipeline with a custom script for moving data between S3 and Redshift, allowing for complex data transformation during the transfer.

Now take a guess. The correct answer is… [SCROLL DOWN]

.

.

.

Correct Answers:

Utilize the COPY command in Amazon Redshift to parallelize data loads from Amazon S3, making use of Redshift’s MPP (Massively Parallel Processing) architecture.

  • The COPY command is specifically designed for bulk data loading into Amazon Redshift from Amazon S3. It takes advantage of Redshift’s MPP architecture to execute fast parallel loads, which is ideal for handling large datasets efficiently.

Configure Redshift to automatically unload query results to S3 using the UNLOAD command, with encryption enabled for data security.

  • The UNLOAD command in Amazon Redshift is designed to export data to S3. It can perform parallel unloads, similar to the COPY command, and supports encryption to maintain data security during the transfer process.

Incorrect Answers:

Use the INSERT INTO command to load data from S3 to Amazon Redshift, ensuring transactions are logged for data integrity.

  • The INSERT INTO command can be used for adding data into Amazon Redshift, but it is not suitable for bulk operations. It is less efficient than the COPY command for large datasets due to the way it handles individual transactions.

Implement Redshift Spectrum to directly query data on Amazon S3 without loading it into Redshift, reducing data movement.

  • While Redshift Spectrum allows querying data in S3 without loading it into Redshift, this scenario specifically requires data movement for further processing, making Spectrum an auxiliary tool rather than a primary method for load/unload operations.

Set up AWS Data Pipeline with a custom script for moving data between S3 and Redshift, allowing for complex data transformation during the transfer.

  • AWS Data Pipeline is a service for orchestrating data movement, but for the specific use case of moving data between S3 and Redshift, using the native COPY and UNLOAD commands is more efficient and less complex than writing custom scripts in Data Pipeline.

Reference:

  • Loading Data from Amazon S3
  • Unloading Data to Amazon S3

Note: There will be links in the actual practice exams in the reference section.

↓自動翻訳

クラウド データ エンジニアリング コンサルタントは、クライアントのために Amazon S3 と Amazon Redshift の間のデータ転送プロセスを最適化する任務を負っています。クライアントのデータ ウェアハウジング ソリューションでは、複雑なクエリを実行するために大規模なデータセットを Redshift に定期的にロードする必要があるほか、長期保存およびさらなる処理のためにクエリ結果を S3 に定期的にアンロードする必要があります。コンサルタントは、これらのロードおよびアンロード操作が効率的かつ安全に実行されるようにする必要があります。

これらの操作を効果的に実行するには、コンサルタントはどの方法の組み合わせを推奨する必要がありますか? (2つ選択してください)

A) Amazon Redshift の COPY コマンドを使用して、Redshift の MPP (Massively Parallel Processing) アーキテクチャを利用して Amazon S3 からのデータロードを並列化します。

B) INSERT INTO コマンドを使用して S3 から Amazon Redshift にデータをロードし、データの整合性のためにトランザクションがログに記録されるようにします。

C) Redshift Spectrum を実装して、Redshift にロードせずに Amazon S3 上のデータを直接クエリし、データの移動を削減します。

D) データセキュリティのために暗号化を有効にして、UNLO​​AD コマンドを使用してクエリ結果を S3 に自動的にアンロードするように Redshift を設定します。

E) S3 と Redshift の間でデータを移動するためのカスタム スクリプトを使用して AWS Data Pipeline をセットアップし、転送中に複雑なデータ変換を可能にします。

ここで 推測してみましょう。正解は… [下にスクロール]

.

.

.

正解:

Amazon Redshift の COPY コマンドを使用して、Redshift の MPP (Massively Parallel Processing) アーキテクチャを利用して Amazon S3 からのデータロードを並列化します。

  • COPY コマンドは、Amazon S3 から Amazon Redshift に大量のデータをロードするために特別に設計されています。Redshift の MPP アーキテクチャを利用して高速並列ロードを実行します。これは、大規模なデータセットを効率的に処理するのに最適です。

データセキュリティのために暗号化を有効にし、UNLO​​AD コマンドを使用してクエリ結果を S3 に自動的にアンロードするように Redshift を構成します。

  • Amazon Redshift の UNLOAD コマンドは、データを S3 にエクスポートするように設計されています。COPY コマンドと同様に並列アンロードを実行でき、転送プロセス中にデータのセキュリティを維持するための暗号化をサポートします。

不正解:

INSERT INTO コマンドを使用して S3 から Amazon Redshift にデータをロードし、データの整合性のためにトランザクションがログに記録されるようにします。

  • INSERT INTO コマンドは、Amazon Redshift にデータを追加するために使用できますが、一括操作には適していません。個々のトランザクションを処理する方法のため、大規模なデータセットの場合は COPY コマンドよりも効率が低くなります。

Redshift Spectrum を実装すると、Amazon S3 上のデータを Redshift にロードせずに直接クエリできるため、データの移動が削減されます。

  • Redshift Spectrum では、Redshift にデータをロードせずに S3 内のデータをクエリできますが、このシナリオでは特に、さらなる処理のためにデータの移動が必要となるため、Spectrum はロード/アンロード操作の主要な方法ではなく補助ツールになります。

S3 と Redshift の間でデータを移動するためのカスタム スクリプトを使用して AWS Data Pipeline をセットアップし、転送中に複雑なデータ変換を可能にします。

  • AWS Data Pipeline はデータ移動を調整するためのサービスですが、S3 と Redshift の間でデータを移動する特定のユースケースでは、Data Pipeline でカスタム スクリプトを作成するよりもネイティブの COPY および UNLOAD コマンドを使用する方が効率的で複雑さが軽減されます。

参照:

  • Amazon S3 からのデータのロード
  • Amazon S3 へのデータのアンロード

注: 参考セクションには実際の模擬試験へのリンクがあります。

215問で定価2,600円です。セール時には1,600円程度になることがあります。

Practice Exams | AWS Certified Data Engineer Associate icon

AWS_DEA_模擬問題英語詳細

まとめ

試験について

  • Data Engineer Associate(DEA)はAWSの認定資格試験の一つでデータ取込、加工、運用等が出題範囲である。S3やDynamoDB、Redshift、Glue等データ管理関連サービスが中心に出題される。
  • 2024年3月初旬時点はベータ試験だったが、2024年3月中旬に標準試験がリリースされた。

勉強方法と教材

AWS公式模擬問題やUdemy教材が使えます。

教材 特徴 価格
AWS公式練習問題 20問の公式無料練習問題。
スキルビルダーの登録が必要です。
本番試験のレベル感を知ることができる
日本語が提供されている
無料
Udemy動画教材
AWS認定Data Engineer Associate(DEA-C01)試験 対策トレーニング icon
初心者にもわかりやすく解説してくれる動画教材です。
親切な解説(10時間)で網羅的に学べる
練習問題50問付属
図表中心の説明なので理解しやすい
定価:5,600円
セール時参考価格:1,600円
UdemyWEB問題集(日本語)
【DEA-C01対応】AWS認定 データエンジニア アソシエイト 模擬問題集+詳解 icon

模擬問題(110問)
解答と丁寧な解説が付属している
定価:2,600円
セール時参考価格:1,600円
UdemyWEB問題集(英語)
Practice Exams | AWS Certified Data Engineer Associate icon
英語模擬問題(215問)Google自動翻訳が利用可能
解答と丁寧な解説が付属している
問題数が豊富
定価:2,600円
セール時参考価格:1,600円

以上です。最後までお読みいただきありがとうございました!

ランキング

ランキングに参加しています。クリックして応援いただけると嬉しいです。
にほんブログ村 IT技術ブログ クラウドコンピューティングへ
にほんブログ村
AWSランキング
AWSランキング

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次