Чтение файлов Parquet с использованием parquet.net занимает больше времени, чем Pyarrow (Python)Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Чтение файлов Parquet с использованием parquet.net занимает больше времени, чем Pyarrow (Python)

Сообщение Anonymous »

Обычно, когда дело доходит до операций с файлами паркета, пакет Parquet.net занимает меньше/равное время по сравнению с Python. Но мой первоначальный набор экспериментов не соответствует этому. Чтение 5 миллионов данных в Parquet Python занимает около 1 секунды, в то время как пакет .NET занимает около 20 секунд. Время, необходимое для чтения файлов паркета с использованием .NET намного выше, чем Python. Я загружаю образец кода здесь, может ли кто-нибудь указать мне причину такого поведения?List metadata = new List();
List dataValues = new List();
var watch = Stopwatch.StartNew();

using (Stream fileStream = File.OpenRead(path))
{
using (var parquetReader = new ParquetReader(fileStream))
{
DataField[] dataFields = parquetReader.Schema.GetDataFields();

for (int currentRowGroup = 0; currentRowGroup < parquetReader.RowGroupCount; currentRowGroup++)
{
using (ParquetRowGroupReader groupReader = parquetReader.OpenRowGroupReader(currentRowGroup))
{
for (int i = 0; i < yColIndex.Count(); i++)
{
var dataColumn = parquetReader.OpenRowGroupReader(currentRowGroup).ReadColumn(dataFields[yColIndex]);
Array reData = dataColumn.Data;
dataValues.Add((double[])reData);
}
}
}
}
}
< /code>
в python: < /p>
def read_column_data_v1(file_path, file_name, columns):
file_path = f"{file_path}\\{file_name}.parquet"
file_data = pq.ParquetFile(file_path)
for i in range(file_data.metadata.num_row_groups):
data = file_data.read_row_group(i, columns)


Подробнее здесь: https://stackoverflow.com/questions/714 ... row-python
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»