Каков самый быстрый способ прочитать CSV-файл, отсортировать данные, а затем записать отсортированные данные в другой CS

Каков самый быстрый способ прочитать CSV-файл, отсортировать данные, а затем записать отсортированные данные в другой CS ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Каков самый быстрый способ прочитать CSV-файл, отсортировать данные, а затем записать отсортированные данные в другой CS

Цитата

Сообщение Anonymous » 21 сен 2023, 06:48

У меня есть огромный набор данных размером около 600 ГБ, состоящий из нескольких файлов csv. Каждый CSV-файл содержит 1,3 млн x 17 наборов данных. Это выглядит так

длительность индекса is_buy_order выдан location_id min_volume order_id диапазон цен system_id type_id Volume_remain Volume_Total Region_id http_last_modified Station_id constellation_id Universe_id 0 90 Правда 2021-05-04T23:31:50Z 60014437 1 5980151223 5.05 регион 30000001 18 249003 250000 10000001 2021-06-19T16:45:32Z 60014437.0 20000001 канун 1 90 Правда 2021-04-29T07:40:27Z 60012145 1 5884280397 5.01 регион 30000082 18 13120 100000 10000001 2021-06-19T16:45:32Z 60012145.0 20000012 канун 2 90 Ложь 2021-04-28T11:46:09Z 60013867 1 5986716666 12500.00 регион 30000019 19 728 728 10000001 2021-06-19T16:45:32Z 60013867.0 20000003 канун 3 90 Ложь 2021-05-22T14:13:15Z 60013867 1 6005466300 6000.00 регион 30000019 19 5560 9191 10000001 2021-06-19T16:45:32Z 60013867. 0 20000003 канун 4 90 Ложь 2021-05-27T08:14:29Z 60013867 1 6008912593 5999.00 регион 30000019 19 1 1 10000001 2021-06-19T16:45:32Z В настоящее время у меня есть это в фрейме данных. Я запускаю его через некоторый логический фильтр, отфильтровывая все данные по определенному «region_id», который я ищу, а затем помещаю их в пустой фрейм данных. Примерно так:

path = pathlib.Path('somePath') данные = pd.read_csv (путь) Region_index = data.columns.get_loc('region_id') newData = pd.DataFrame(columns=data.columns) для строки в data.values: если строка[region_index] == регион.THE_FORGE.value: newData.loc[len(newData)] = row.tolist() newData.to_csv(newCSVName, index=False) Однако обработка одного файла занимает около 74 минут... Мне нужно сделать это с файлами объемом более 600 ГБ...

Итак, поскольку в заголовке упоминается, какой самый быстрый способ я могу/должен сделать это, что я могу делать итеративно по всем CSV. Я думал об использовании асинхронного режима, но не уверен, что это лучший способ.

1695268112

Anonymous


У меня есть огромный набор данных размером около 600 ГБ, состоящий из нескольких файлов csv. Каждый CSV-файл содержит 1,3 млн x 17 наборов данных. Это выглядит так
 
длительность индекса is_buy_order выдан location_id min_volume order_id диапазон цен system_id type_id Volume_remain Volume_Total Region_id http_last_modified Station_id constellation_id Universe_id 0 90 Правда 2021-05-04T23:31:50Z 60014437 1 5980151223 5.05 регион 30000001 18 249003 250000 10000001 2021-06-19T16:45:32Z 60014437.0 20000001 канун 1 90 Правда 2021-04-29T07:40:27Z 60012145 1 5884280397 5.01 регион 30000082 18 13120 100000 10000001 2021-06-19T16:45:32Z 60012145.0 20000012 канун 2 90 Ложь 2021-04-28T11:46:09Z 60013867 1 5986716666 12500.00 регион 30000019 19 728 728 10000001 2021-06-19T16:45:32Z 60013867.0 20000003 канун 3 90 Ложь 2021-05-22T14:13:15Z 60013867 1 6005466300 6000.00 регион 30000019 19 5560 9191 10000001 2021-06-19T16:45:32Z 60013867. 0 20000003 канун 4 90 Ложь 2021-05-27T08:14:29Z 60013867 1 6008912593 5999.00 регион 30000019 19 1 1 10000001 2021-06-19T16:45:32Z  В настоящее время у меня есть это в фрейме данных. Я запускаю его через некоторый логический фильтр, отфильтровывая все данные по определенному «region_id», который я ищу, а затем помещаю их в пустой фрейм данных. Примерно так:
 
path = pathlib.Path('somePath') данные = pd.read_csv (путь) Region_index = data.columns.get_loc('region_id') newData = pd.DataFrame(columns=data.columns) для строки в data.values:   если строка[region_index] == регион.THE_FORGE.value:          newData.loc[len(newData)] = row.tolist()    newData.to_csv(newCSVName, index=False)  Однако обработка одного файла занимает около 74 минут... Мне нужно сделать это с файлами объемом более 600 ГБ...
 
Итак, поскольку в заголовке упоминается, какой самый быстрый способ я могу/должен сделать это, что я могу делать итеративно по всем CSV. Я думал об использовании асинхронного режима, но не уверен, что это лучший способ.

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Каков самый быстрый способ прочитать CSV-файл, отсортировать данные, а затем записать отсортированные данные в другой CS

Последнее сообщение Гость « 21 сен 2023, 07:19
Добавлено в форуме Python

Гость » 21 сен 2023, 07:19 » в форуме Python

У меня есть огромный набор данных размером около 600 ГБ, состоящий из нескольких файлов csv. Каждый CSV-файл содержит 1,3 млн x 17 наборов данных. Это выглядит так

длительность индекса is_buy_order выдан location_id min_volume order_id диапазон...

0 Ответы

40 Просмотры

Последнее сообщение Гость
21 сен 2023, 07:19
Каков самый быстрый способ загрузить большой файл CSV в блокнот для работы с пандами Python?

Последнее сообщение Anonymous « 09 июл 2024, 00:28
Добавлено в форуме Python

Anonymous » 09 июл 2024, 00:28 » в форуме Python

Я пытаюсь загрузить файл csv размером 250 МБ. В основном 4 миллиона строк и 6 столбцов данных временных рядов (1 минута). Обычная процедура:

location = r'C:\Users\Name\Folder_1\Folder_2\file.csv'
df = pd.read_csv(location)

Эта процедура...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
09 июл 2024, 00:28
Как я могу прочитать данные из базы данных и записать их в файл Csv?

Последнее сообщение Anonymous « 19 апр 2024, 09:36
Добавлено в форуме C#

Anonymous » 19 апр 2024, 09:36 » в форуме C#

У меня есть две таблицы: одна содержит данные заголовка, а вторая — подробную информацию о заголовке, и я хочу прочитать данные из заголовка, записать строку заголовка в CSV, затем прочитать данные с подробными сведениями, связанными с заголовком, и...

0 Ответы

38 Просмотры

Последнее сообщение Anonymous
19 апр 2024, 09:36
Как записать в существующий файл CSV данные из другого файла CSV?

Последнее сообщение Гость « 30 апр 2024, 08:34
Добавлено в форуме Python

Гость » 30 апр 2024, 08:34 » в форуме Python

Немного контекста: у меня есть два файла CSV:

Первый, который я назову Заявление

Второй файл Большой файл

Большой файл содержит много данных, включая номера идентификаторов заказов, которые указаны в Заявке .

Я хочу сделать следующее:

Если...

0 Ответы

81 Просмотры

Последнее сообщение Гость
30 апр 2024, 08:34
Как сравнить два данных CSV и записать в новый файл CSV

Последнее сообщение Anonymous « 20 авг 2025, 23:15
Добавлено в форуме Python

Anonymous » 20 авг 2025, 23:15 » в форуме Python

У меня есть два файла .csv , master_test.csv и child_test1.csv и хочу получить output.csv .
master_test.csv содержит следующую информацию
nnn
bbb_12
kkk
ccc

child_test1.csv содержит следующую информацию:
nnn
ddd
mmm
bbb_13

I need to compare...

0 Ответы

1 Просмотры

Последнее сообщение Anonymous
20 авг 2025, 23:15

Вернуться в «Python»