CsvReader.Read/CsvReader.ReadAsync дублирует данные

CsvReader.Read/CsvReader.ReadAsync дублирует данные ⇐ C#

1 сообщение • Страница 1 из 1

Гость

CsvReader.Read/CsvReader.ReadAsync дублирует данные

Цитата

Сообщение Гость » 14 мар 2024, 15:50

Внутри действия в устойчивых функциях Azure у меня есть метод, который считывает файл Csv из определенного индекса. Целью этого метода является чтение 2000 строк файла или до последней строки, начиная с указанного индекса.
Для файлов размером более 2000 строк мы достигаем BucketSize и останавливаем цикл while, поэтому дубликаты не возникают.
Однако, если файлы короче размера сегмента, должно произойти следующее: метод Read/ReadAsync должен возвращать false при достижении конца файла. Вместо этого происходит то, что при достижении последней строки программа чтения снова начинает работать с указанным индексом, а метод Read/ReadAsync возвращает false только после полного второго запуска. Это приводит к дублированию значений.

Код: Выделить всё

public async Task StartProcessingBatchAsync(Stream stream, long index, CancellationToken token)
{
_logger.LogInformation("Processing CSV async");
using var reader = new StreamReader(stream);
using var csv = new CsvReader(reader, new CsvConfiguration(CultureInfo.InvariantCulture) { HasHeaderRecord = CsvHasHeaderRecord });
csv.Context.RegisterClassMap(_modelMap);

stream.Position = 0;
csv.Read();
csv.ReadHeader();
stream.Position = index;
var modelsList = new List();
var errorCount = 0;
var rowCounter = 0;

_logger.LogInformation($"Reading {_configuration.BucketSize} items starting from index: {stream.Position}");
while(await csv.ReadAsync() && rowCounter < _configuration.BucketSize)
{
TModel record;

try
{
record = csv.GetRecord();

Guard.NotNull(record, nameof(record));
}
catch
{
errorCount++;
continue;
}
modelsList.Add(record);
rowCounter++;
}
_logger.LogInformation($"Found {errorCount} errors out of {_configuration.BucketSize} items");

return modelsList;
}

Есть идеи, почему это так? Почему метод Read/ReadAsync выполняется при втором запуске вместо того, чтобы выдавать false в конце файла?

Подробнее здесь: https://stackoverflow.com/questions/781 ... cates-data

1710420637

Гость

Внутри действия в устойчивых функциях Azure у меня есть метод, который считывает файл Csv из определенного индекса. Целью этого метода является чтение 2000 строк файла или до последней строки, начиная с указанного индекса.
Для файлов размером более 2000 строк мы достигаем BucketSize и останавливаем цикл while, поэтому дубликаты не возникают.
Однако, если файлы короче размера сегмента, должно произойти следующее: метод Read/ReadAsync должен возвращать false при достижении конца файла. Вместо этого происходит то, что при достижении последней строки программа чтения снова начинает работать с указанным индексом, а метод Read/ReadAsync возвращает false только после полного второго запуска. Это приводит к дублированию значений.
[code]public async Task StartProcessingBatchAsync(Stream stream, long index, CancellationToken token)
{
_logger.LogInformation("Processing CSV async");
using var reader = new StreamReader(stream);
using var csv = new CsvReader(reader, new CsvConfiguration(CultureInfo.InvariantCulture) { HasHeaderRecord = CsvHasHeaderRecord });
csv.Context.RegisterClassMap(_modelMap);

stream.Position = 0;
csv.Read();
csv.ReadHeader();
stream.Position = index;
var modelsList = new List();
var errorCount = 0;
var rowCounter = 0;

_logger.LogInformation($"Reading {_configuration.BucketSize} items starting from index: {stream.Position}");
while(await csv.ReadAsync() && rowCounter < _configuration.BucketSize)
{
TModel record;

try
{
record = csv.GetRecord();

Guard.NotNull(record, nameof(record));
}
catch
{
errorCount++;
continue;
}
modelsList.Add(record);
rowCounter++;
}
_logger.LogInformation($"Found {errorCount} errors out of {_configuration.BucketSize} items");

return modelsList;
}
[/code]
Есть идеи, почему это так? Почему метод Read/ReadAsync выполняется при втором запуске вместо того, чтобы выдавать false в конце файла? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78160647/csvreader-read-csvreader-readasync-duplicates-data[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

CsvReader.Read/CsvReader.ReadAsync дублирует данные

Последнее сообщение Гость « 14 мар 2024, 17:14
Добавлено в форуме C#

Гость » 14 мар 2024, 17:14 » в форуме C#

Внутри действия в устойчивых функциях Azure у меня есть метод, который считывает файл Csv из определенного индекса. Целью этого метода является чтение 2000 строк файла или до последней строки, начиная с указанного индекса.
Для файлов размером более...

0 Ответы

18 Просмотры

Последнее сообщение Гость
14 мар 2024, 17:14
Почему Stream.ReadAsync может читать меньше байтов, чем Stream.Read?

Последнее сообщение Anonymous « 20 янв 2025, 12:12
Добавлено в форуме C#

Anonymous » 20 янв 2025, 12:12 » в форуме C#

Для архива размером 400 МБ это выполняется за несколько секунд.
private static async Task ExtractFilesAsync(this ZipArchive archive, string destination, IProgress progress = null)
{
await Task.Run(() =>
{
long bytesWritten = 0;
long totalBytes =...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
20 янв 2025, 12:12
Почему ZipArchiveEntry.Open().ReadAsync(...) читает меньше байтов, чем ZipArchiveEntry.Open().Stream.Read(...)?

Последнее сообщение Anonymous « 20 янв 2025, 16:18
Добавлено в форуме C#

Anonymous » 20 янв 2025, 16:18 » в форуме C#

Для архива размером 400 МБ это выполняется за несколько секунд.
private static async Task ExtractFilesAsync(this ZipArchive archive, string destination, IProgress progress = null)
{
await Task.Run(() =>
{
long bytesWritten = 0;
long totalBytes =...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
20 янв 2025, 16:18
Функция read() в C++ аналогична функции c read()

Последнее сообщение Гость « 09 апр 2024, 11:22
Добавлено в форуме C++

Гость » 09 апр 2024, 11:22 » в форуме C++

Существует ли какой-либо метод, эквивалентный c read() в C++? Чтобы проиллюстрировать мой вопрос, на C, если у меня есть:

struct A{
char data ;
int num;
};

...и если я использую:

A* a = malloc (sizeof(struct A));
read (fd, a, sizeof(struct...

0 Ответы

137 Просмотры

Последнее сообщение Гость
09 апр 2024, 11:22
PHP 7: SessionHandlerInterface::read(string $session_id): строка должна быть совместима с SessionHandlerInterface::read(

Последнее сообщение Anonymous « 12 дек 2024, 12:44
Добавлено в форуме Php

Anonymous » 12 дек 2024, 12:44 » в форуме Php

со следующим кодом в PHP 7.1

class MySqlSessionHandler implements \SessionHandlerInterface {
public function read(string $session_id) : string { ... }
}

Я получаю:

Неустранимая ошибка: объявление Sessions\MySqlSessionHandler:: read(string...

0 Ответы

42 Просмотры

Последнее сообщение Anonymous
12 дек 2024, 12:44

Вернуться в «C#»