Стратегия разделения паркета для одного небольшого файла и оптимизация чтения

Стратегия разделения паркета для одного небольшого файла и оптимизация чтения ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Стратегия разделения паркета для одного небольшого файла и оптимизация чтения

Цитата

Сообщение Anonymous » 18 сен 2024, 09:40

У меня есть один файл паркета объемом от 5 до 100 МБ данных.
Пока я пытался создать раздел в столбце «Дата», создается несколько файлов, что снижает производительность чтения, поскольку их много. небольшие файлы.
Поэтому я использовал repartition(1) для создания только одного файла.
Теперь запрос, используемый для этого файла с использованием Spark sql, - это дата запрос диапазона, например дата, между x и y.

Код: Выделить всё

public DataFilter applyValuationDateRangeFilter() {
AlcyoneDate startDate = calculationContext.getDateSequence().getStartDate();
AlcyoneDate endDate = calculationContext.getDateSequence().getEndDate();
filterQueries.append(" AND ");
filterQueries.append("ValuationDate BETWEEN '").append(startDate).append("' AND     '").append(endDate).append("'");
return this;
}

Я пытался создать раздел в столбце ValuationDate с помощью repartition(1), но не получил особой пользы.
Как повысить производительность чтения?< /p>
Я применяю фильтр во время загрузки файла:

Код: Выделить всё

public  Dataset getDatasetForInputFileWithFiltering(String parquetFilePath, String filterQuery) {
return getSparkSession().read().format("parquet")
.option("inferSchema", "true")
.option("header", "true")
.load(parquetFilePath)
.filter(filterQuery);
}

Также мне нужно перебрать все строки, чтобы заполнить некоторые данные:

Код: Выделить всё

Iterator rowIterator = rows.toLocalIterator();
while (rowIterator.hasNext()) {
Row row = rowIterator.next();

Я не могу использовать rows.collectAsList(), поскольку это дает мне OOM.
Также я не могу использовать rows.foreach и rows.foreachPartition, поскольку мой нижестоящий код не поддерживается многопоточность.

Подробнее здесь: https://stackoverflow.com/questions/789 ... timization

1726641608

Anonymous

У меня есть один файл паркета объемом от 5 до 100 МБ данных.
Пока я пытался создать раздел в столбце «Дата», создается несколько файлов, что снижает производительность чтения, поскольку их много. небольшие файлы.
Поэтому я использовал repartition(1) для создания только одного файла.
Теперь запрос, используемый для этого файла с использованием Spark sql, - это дата запрос диапазона, например дата, между x и y.
[code]public DataFilter applyValuationDateRangeFilter() {
AlcyoneDate startDate = calculationContext.getDateSequence().getStartDate();
AlcyoneDate endDate = calculationContext.getDateSequence().getEndDate();
filterQueries.append(" AND ");
filterQueries.append("ValuationDate BETWEEN '").append(startDate).append("' AND     '").append(endDate).append("'");
return this;
}
[/code]
Я пытался создать раздел в столбце ValuationDate с помощью repartition(1), но не получил особой пользы.
Как повысить производительность чтения?< /p>
Я применяю фильтр во время загрузки файла:
[code]public  Dataset getDatasetForInputFileWithFiltering(String parquetFilePath, String filterQuery) {
return getSparkSession().read().format("parquet")
.option("inferSchema", "true")
.option("header", "true")
.load(parquetFilePath)
.filter(filterQuery);
}
[/code]
Также мне нужно перебрать все строки, чтобы заполнить некоторые данные:
[code]Iterator rowIterator = rows.toLocalIterator();
while (rowIterator.hasNext()) {
Row row = rowIterator.next();
[/code]
Я не могу использовать rows.collectAsList(), поскольку это дает мне OOM.
Также я не могу использовать rows.foreach и rows.foreachPartition, поскольку мой нижестоящий код не поддерживается многопоточность. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78996842/parquet-partition-strategy-for-single-small-file-and-read-optimization[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Стратегия разделения паркета для одного небольшого файла и оптимизация чтения

Последнее сообщение Anonymous « 18 сен 2024, 21:08
Добавлено в форуме JAVA

Anonymous » 18 сен 2024, 21:08 » в форуме JAVA

У меня есть один файл паркета объемом от 5 до 100 МБ данных.
Пока я пытался создать раздел в столбце «Дата», создается несколько файлов, что снижает производительность чтения, поскольку их много. небольшие файлы.
Поэтому я использовал repartition(1)...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
18 сен 2024, 21:08
Стратегия разделения паркета для одного небольшого файла и оптимизация чтения

Последнее сообщение Anonymous « 21 сен 2024, 23:43
Добавлено в форуме JAVA

Anonymous » 21 сен 2024, 23:43 » в форуме JAVA

У меня есть один файл паркета объемом от 5 до 100 МБ данных.
Пока я пытался создать раздел в столбце «Дата», создается несколько файлов, что снижает производительность чтения, поскольку их много. небольшие файлы.
Поэтому я использовал repartition(1)...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
21 сен 2024, 23:43
Как применить уникальный фильтр к столбцу разделения файла паркета с помощью wr.s3.read_parquet?

Последнее сообщение Anonymous « 26 окт 2023, 09:46
Добавлено в форуме Python

Anonymous » 26 окт 2023, 09:46 » в форуме Python

У меня есть набор данных паркета, хранящийся в s3, и я хочу прочитать его, чтобы применить фильтр к полю раздела, в частности к уникальному. Я пытался сделать следующее, однако уникальную функцию невозможно применить

Вот моя попытка:...

0 Ответы

46 Просмотры

Последнее сообщение Anonymous
26 окт 2023, 09:46
Запись нулевых значений в файл паркета с помощью Parquet.Net создает нечитаемый файл паркета.

Последнее сообщение Anonymous « 26 апр 2024, 18:06
Добавлено в форуме C#

Anonymous » 26 апр 2024, 18:06 » в форуме C#

Я использую Parquet.Net (4.23.5) для записи файла паркета. Я обнаружил, что когда я хочу записать нулевое значение в столбце данных, сгенерированный файл паркета становится нечитаемым.
Итак, что я делаю неправильно
Это это простой код для его...

0 Ответы

69 Просмотры

Последнее сообщение Anonymous
26 апр 2024, 18:06
MATLAB не читает файл паркета, просто говорит: «Невозможно прочитать файл паркета». Как я могу еще это прочитать?

Последнее сообщение Anonymous « 25 июл 2024, 01:07
Добавлено в форуме Python

Anonymous » 25 июл 2024, 01:07 » в форуме Python

Я создал файл паркета, используя метод .write_parquet Python Polars. Python может без проблем прочитать его обратно, и MATLAB также может без проблем прочитать информацию о файле с помощью parquetinfo.
Однако, когда я запускаю parquetread в MATLAB...

0 Ответы

48 Просмотры

Последнее сообщение Anonymous
25 июл 2024, 01:07

Вернуться в «JAVA»