Я работаю над проектом с большими данными, у меня есть данные JSONL 70 ГБ в ведре S3 при использовании Spark/Hadoop, если я скопирую файл данных в HDF, я чувствую, что я что -то упускаю в концепции, которую я пришел другой фон, и я запутался !!
Подробнее здесь: https://stackoverflow.com/questions/794 ... -s3-bucket