Spring Data Elasticsearch Массовое индексирование/удаление – миллионы записей

Spring Data Elasticsearch Массовое индексирование/удаление – миллионы записей ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Spring Data Elasticsearch Массовое индексирование/удаление – миллионы записей

Цитата

Сообщение Anonymous » 03 июл 2024, 16:50

Я использую Spring Data Elasticsearch 4.2.5, у нас есть задание, которое выполняет ETL (извлечение, преобразование и загрузку данных) в определенную таблицу базы данных. Я индексирую эти данные с помощью Elasticsearch во время выполнения задания. Данные будут в миллионах записей и более. В настоящее время я делаю индекс на каждой итерации. Я читал, что использование индекса elasticsearch на каждой итерации может занять некоторое время. Я хотел использовать что-то вроде массового индекса, но для этого мне нужно добавить объект indexQuery в список. Добавление миллионов записей в список и выполнение массового индексирования может вызвать проблемы с памятью.
Мне нужно применить аналогичный процесс для удаления. Когда записи удаляются на основе какого-то общего идентификатора, мне нужно удалить связанные эластичные документы, и это также будет в миллионах и более.
Можно ли как-нибудь очень быстро индексировать/удалять для этого требование? Любая помощь будет очень признательна, и поправьте меня, если мое понимание неверно.
ИНДЕКСИРОВАНИЕ
for (Map.Entry key : objectDetailsHashMap.entrySet()) {
indexDocument(elasticsearchOperations, key, oPath);
// other code to insert data in db table...
}

private void indexDocument(ElasticsearchOperations elasticsearchOperations,
Map.Entry key, String oPath) {
String docId = "" + key.getValue().getCatalogId() + key.getValue().getObjectId();

byte[] nameBytes = key.getValue().getName();
byte[] physicalNameBytes = key.getValue().getPhysicalName();
byte[] definitionBytes = key.getValue().getDefinition();
byte[] commentBytes = key.getValue().getComment();

IndexQuery indexQuery = new IndexQueryBuilder()
.withId(docId)
.withObject(new MetadataSearch(
key.getValue().getObjectId(),
key.getValue().getCatalogId(),
key.getValue().getParentId(),
key.getValue().getTypeCode(),
key.getValue().getStartVersion(),
key.getValue().getEndVersion(),
nameBytes != null ? new String(nameBytes, StandardCharsets.UTF_8) : "-",
physicalNameBytes != null ? new String(physicalNameBytes, StandardCharsets.UTF_8) : "-",
definitionBytes != null ? new String(definitionBytes, StandardCharsets.UTF_8) : "-",
commentBytes != null ? new String(commentBytes, StandardCharsets.UTF_8) : "-",
oPath
))
.build();

elasticsearchOperations.index(indexQuery, IndexCoordinates.of("portal_idx"));
}

УДАЛЕНИЕ
private void deleteElasticDocuments(String catalogId) {
String queryText = martServerContext.getQueryCacheInstance().getQuery(QUERY_PORTAL_GET_OBJECTS_IN_PORTAL_BY_MODEL);
MapSqlParameterSource mapSqlParameterSource = new MapSqlParameterSource();
mapSqlParameterSource.addValue("cId", Integer.parseInt(catalogId));
namedParameterJdbcTemplate.query(queryText, mapSqlParameterSource, (resultSet -> {
int objectId = resultSet.getInt(O_ID);
String docId = catalogId + objectId;
elasticsearchOperations.delete(docId, IndexCoordinates.of("portal_idx"));
}));
}

Подробнее здесь: https://stackoverflow.com/questions/693 ... of-records

1720014601

Anonymous

Я использую Spring Data Elasticsearch 4.2.5, у нас есть задание, которое выполняет ETL (извлечение, преобразование и загрузку данных) в определенную таблицу базы данных. Я индексирую эти данные с помощью Elasticsearch во время выполнения задания. Данные будут в миллионах записей и более. В настоящее время я делаю индекс на каждой итерации. Я читал, что использование индекса elasticsearch на каждой итерации может занять некоторое время. Я хотел использовать что-то вроде массового индекса, но для этого мне нужно добавить объект indexQuery в список. Добавление миллионов записей в список и выполнение массового индексирования может вызвать проблемы с памятью.
Мне нужно применить аналогичный процесс для удаления. Когда записи удаляются на основе какого-то общего идентификатора, мне нужно удалить связанные эластичные документы, и это также будет в миллионах и более.
Можно ли как-нибудь очень быстро индексировать/удалять для этого требование? Любая помощь будет очень признательна, и поправьте меня, если мое понимание неверно.
[b]ИНДЕКСИРОВАНИЕ[/b]
for (Map.Entry key : objectDetailsHashMap.entrySet()) {
indexDocument(elasticsearchOperations, key, oPath);
// other code to insert data in db table...
}

private void indexDocument(ElasticsearchOperations elasticsearchOperations,
Map.Entry key, String oPath) {
String docId = "" + key.getValue().getCatalogId() + key.getValue().getObjectId();

byte[] nameBytes = key.getValue().getName();
byte[] physicalNameBytes = key.getValue().getPhysicalName();
byte[] definitionBytes =  key.getValue().getDefinition();
byte[] commentBytes = key.getValue().getComment();

IndexQuery indexQuery = new IndexQueryBuilder()
.withId(docId)
.withObject(new MetadataSearch(
key.getValue().getObjectId(),
key.getValue().getCatalogId(),
key.getValue().getParentId(),
key.getValue().getTypeCode(),
key.getValue().getStartVersion(),
key.getValue().getEndVersion(),
nameBytes != null ? new String(nameBytes, StandardCharsets.UTF_8) : "-",
physicalNameBytes != null ? new String(physicalNameBytes, StandardCharsets.UTF_8) : "-",
definitionBytes != null ? new String(definitionBytes, StandardCharsets.UTF_8) : "-",
commentBytes != null ? new String(commentBytes, StandardCharsets.UTF_8) : "-",
oPath
))
.build();

elasticsearchOperations.index(indexQuery, IndexCoordinates.of("portal_idx"));
}

[b]УДАЛЕНИЕ[/b]
private void deleteElasticDocuments(String catalogId) {
String queryText = martServerContext.getQueryCacheInstance().getQuery(QUERY_PORTAL_GET_OBJECTS_IN_PORTAL_BY_MODEL);
MapSqlParameterSource mapSqlParameterSource = new MapSqlParameterSource();
mapSqlParameterSource.addValue("cId", Integer.parseInt(catalogId));
namedParameterJdbcTemplate.query(queryText, mapSqlParameterSource, (resultSet -> {
int objectId = resultSet.getInt(O_ID);
String docId = catalogId + objectId;
elasticsearchOperations.delete(docId, IndexCoordinates.of("portal_idx"));
}));
}
 

Подробнее здесь: [url]https://stackoverflow.com/questions/69362887/spring-data-elasticsearch-bulk-index-delete-millions-of-records[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Оптимизация проекта .NET + Angular, который извлекает миллионы записей из базы данных [закрыто]

Последнее сообщение Anonymous « 03 дек 2024, 19:53
Добавлено в форуме C#

Anonymous » 03 дек 2024, 19:53 » в форуме C#

Вопрос:

Вам поручено оптимизировать проект .NET + Angular, который извлекает миллионы записей из базы данных и отправляет их клиентскому приложению для фильтрации. Кроме того, когда данные обновляются, серверная часть обновляет все записи с...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
03 дек 2024, 19:53
Spring data elasticsearch массовый индекс и удаление

Последнее сообщение Anonymous « 03 дек 2024, 16:59
Добавлено в форуме JAVA

Anonymous » 03 дек 2024, 16:59 » в форуме JAVA

Я новичок в сообществе, поэтому прошу прощения, если делаю что-то не так.
Я использую Spring Data elasticsearch (2.0.4/2.4)
И я хотел бы выполнить массовую вставку и удаление.
Но ElasticsearchTemplate содержит только метод BulkInsert
@Override...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
03 дек 2024, 16:59
Индексирование в Elasticsearch локально с помощью biosentvec TimeoutError

Последнее сообщение Anonymous « 21 окт 2024, 02:21
Добавлено в форуме Python

Anonymous » 21 окт 2024, 02:21 » в форуме Python

Я пытаюсь проиндексировать 300 тысяч наблюдений локально с помощью эластичного поиска, пытаюсь просканировать API biosentvec после создания вложений, чтобы индексировать все данные, которые он постоянно ломает. я получаю следующую ошибку....

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
21 окт 2024, 02:21
Полный документ Elasticsearch или постраничное индексирование текста

Последнее сообщение Anonymous « 24 дек 2024, 16:39
Добавлено в форуме C#

Anonymous » 24 дек 2024, 16:39 » в форуме C#

Я создаю веб-приложение на .Net и PostgreSql.
Одним из требований является загрузка большого количества документов, например 200, которые могут быть в нескольких форматах, таких как pdf, doc, rtf, odt.
В настоящее время я храню их в Elasticsearch....

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
24 дек 2024, 16:39
Массовое обновление таймсерий C# MongoDB с добавлением повторяющихся записей

Последнее сообщение Гость « 14 мар 2024, 15:34
Добавлено в форуме C#

Гость » 14 мар 2024, 15:34 » в форуме C#

Использование MongoDB 7 и MongoDB.Driver 2.24.0 в .NET 7
У меня есть коллекция MongoDB, определенная как таймсерия, работает нормально, если я делаю только вставки, но теперь , записи могут дублироваться, и мне придется выполнить какую-то...

0 Ответы

32 Просмотры

Последнее сообщение Гость
14 мар 2024, 15:34

Вернуться в «JAVA»