素早く問題を解いてInput⇔Outputを繰り返し!
会員レベル
ログイン
メンバーシップアカウント
会員レベル
ログイン
メンバーシップアカウント
HOME
Lv030
「Lv030」の記事一覧
Databricksの将来的なビジョンである「Data Intelligence Platform」の中核となる技術はどれか。
データレイクハウス上の全データとそのメタデータをAIが理解し、自然言語による操作や自動最適化を実現す…
2026年3月8日
Delta Lakeの `VACUUM` コマンドで、データファイルが即座に物理削除されずに「Tombstone(墓石)」状態になる期間(デフォルトの削除遅延)はないが、クラウドストレージ側の挙動で注意すべき点は何か。
オブジェクトストレージの仕様により、APIで削除リクエストを送っても、完全に消えるまでにわずかなタイム…
2026年3月8日
Databricksクラスターの「User Isolation(ユーザー分離)」モード(Shared Access Mode)で制限される機能はどれか。
複数ユーザーが共有するクラスターでセキュリティを保つため、ファイルシステムやネットワークへの無制限…
2026年3月8日
PySparkの `df.rdd.map(…)` を使用してPythonコードを実行することのパフォーマンス上の欠点はどれか。
RDD APIに落ちるとSpark SQLの最適化エンジンから外れるため、可能な限りDataFrame/Dataset APIまたはPand…
2026年3月8日
Databricks Jobsにおいて、Git連携したジョブのコードが更新された際、実行中のジョブはどうなるか。
ジョブ実行は開始時にコードの特定バージョンをスナップショットとして取得するため、実行中にリポジトリ…
2026年3月8日
「Data Mesh」における「Federated Computational Governance」とは何を意味するか。
全社共通のセキュリティや相互運用性のルール(連邦政府的)を敷きつつ、データの詳細な管理や品質基準は…
2026年3月8日
Delta Live Tablesで、ソースデータがS3上の「CSVファイル」であり、カラムの増減が頻繁にある場合、推奨される読み込み方法はどれか。
Auto Loaderのスキーマ進化機能を使えば、CSVに新しい列が追加された場合に、パイプラインを止めることな…
2026年3月8日
Unity Catalogの「Service Principal」をジョブの所有者(Owner)にする主なメリットはどれか。
プロダクションジョブは特定個人のIDに依存すべきではなく、永続的なサービスプリンシパルとして実行する…
2026年3月8日
Structured Streamingで、結合(Join)において「Watermark」の遅延閾値を短くしすぎた場合のリスクはどれか。
Watermarkを厳しく(短く)設定しすぎると、許容範囲を超えて到着したデータが結合対象から除外され、結果…
2026年3月8日
Spark UIのExecutorタブで「GC Time(ガベージコレクション時間)」が全体の処理時間の10%を超えている場合、疑うべき原因はどれか。
GC頻発はヒープメモリが圧迫されていることを示し、メモリ割り当て(`spark.executor.memory`)を増やすか…
2026年3月8日
投稿のページ送り
1
…
125
126
127
…
278