Как прочитать большой текстовый файл в Amazon SageMaker? ⇐ Python
-
Гость
Как прочитать большой текстовый файл в Amazon SageMaker?
Я хочу прочитать несколько текстовых файлов из корзины s3, которые составят фрейм данных из 10 миллионов записей и 900 столбцов. Но чтение данных с использованием экземпляра ml.p3.2xlarge занимает слишком много времени. Более того, я хотел бы знать, есть ли лучший способ чтения данных со всеми ресурсами, доступными в большом экземпляре aws.
Ниже приведен код, который я использую прямо сейчас.
def get_data(prefix_objs = prefix_objs, Bucket = Bucket, i = 0, prefix_df = [], cols = col): для объекта в prefix_objs: я += 1 ключ = объект.ключ file_path = 's3://' + Bucket.name +'/'+str(ключ) temp = pd.read_csv(путь_файла, сентябрь = "|", usecols = столбец) print("Номер файла: {}".format(i)) prefix_df.append(температура) вернуть pd.concat(prefix_df)
Я хочу прочитать несколько текстовых файлов из корзины s3, которые составят фрейм данных из 10 миллионов записей и 900 столбцов. Но чтение данных с использованием экземпляра ml.p3.2xlarge занимает слишком много времени. Более того, я хотел бы знать, есть ли лучший способ чтения данных со всеми ресурсами, доступными в большом экземпляре aws.
Ниже приведен код, который я использую прямо сейчас.
def get_data(prefix_objs = prefix_objs, Bucket = Bucket, i = 0, prefix_df = [], cols = col): для объекта в prefix_objs: я += 1 ключ = объект.ключ file_path = 's3://' + Bucket.name +'/'+str(ключ) temp = pd.read_csv(путь_файла, сентябрь = "|", usecols = столбец) print("Номер файла: {}".format(i)) prefix_df.append(температура) вернуть pd.concat(prefix_df)
Мобильная версия