У меня есть куча документов, которые я хотел бы встроить в векторный формат и сохранить в своей базе данных Postgres. Некоторые из этих документов очень длинные, поэтому я использую Spring BatchingStrategy, чтобы разделить их. Я получаю сообщение об ошибке от дозатора о том, что во входном документе слишком много токенов... Вся суть дозатора в том, чтобы разделить его так, чтобы в каждом из них было полезное количество токенов. документ, почему он выдает ошибку, когда в него вводится много токенов?
import org.springframework.ai.document.Document;
import org.springframework.ai.embedding.BatchingStrategy;
import org.springframework.ai.reader.tika.TikaDocumentReader;
import org.springframework.ai.vectorstore.VectorStore;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.core.io.FileSystemResource;
import org.springframework.stereotype.Component;
import java.io.File;
import java.io.IOException;
import java.nio.file.Files;
import java.util.ArrayList;
import java.util.List;
@Component
public class VectorInit {
@Autowired
VectorStore vectorStore;
@Autowired
BatchingStrategy batchingStrategy;
public void loadVectors(String folderPath) throws IOException {
List d = new ArrayList();
File folder = new File(folderPath);
if (!folder.isDirectory()) {
throw new IllegalArgumentException("Provided path is not a directory: " + folderPath);
}
Files.walk(folder.toPath())
.filter(Files::isRegularFile)
.forEach(f -> {
System.out.println("Reading file: " + f);
TikaDocumentReader reader = new TikaDocumentReader(new FileSystemResource(f.toFile()));
List readDocs = reader.read();
readDocs.forEach(
doc -> {
System.out.println("Read doc: " + doc.getId() + "; size: " + doc.getContent().length());
batchingStrategy.batch(readDocs).forEach(batch -> { // This is the line with the error
System.out.println("Adding batch of size: " + batch.size());
d.addAll(batch);
});
}
);
});
vectorStore.add(d);
}
}
import com.knuddels.jtokkit.api.EncodingType;
import org.springframework.ai.embedding.BatchingStrategy;
import org.springframework.ai.embedding.TokenCountBatchingStrategy;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
@Configuration
public class EmbeddingConfig {
@Bean
public BatchingStrategy customTokenCountBatchingStrategy() {
return new TokenCountBatchingStrategy(
EncodingType.CL100K_BASE,
8000,
.1
);
}
}
Reading file: ***************.html
Read doc: ***************; size: 189772
java.lang.IllegalArgumentException: Tokens in a single document exceeds the maximum number of allowed input tokens
at org.springframework.ai.embedding.TokenCountBatchingStrategy.batch(TokenCountBatchingStrategy.java:148)
at ***************.vector.VectorInit.lambda$loadVectors$2(VectorInit.java:44)
at java.base/java.lang.Iterable.forEach(Iterable.java:75)
at ***************.vector.VectorInit.lambda$loadVectors$3(VectorInit.java:41)
at java.base/java.util.stream.ForEachOps$ForEachOp$OfRef.accept(ForEachOps.java:184)
at java.base/java.util.stream.ReferencePipeline$2$1.accept(ReferencePipeline.java:179)
at java.base/java.util.stream.ReferencePipeline$3$1.accept(ReferencePipeline.java:197)
at java.base/java.util.Iterator.forEachRemaining(Iterator.java:133)
at java.base/java.util.Spliterators$IteratorSpliterator.forEachRemaining(Spliterators.java:1939)
at java.base/java.util.stream.AbstractPipeline.copyInto(AbstractPipeline.java:509)
at java.base/java.util.stream.AbstractPipeline.wrapAndCopyInto(AbstractPipeline.java:499)
at java.base/java.util.stream.ForEachOps$ForEachOp.evaluateSequential(ForEachOps.java:151)
at java.base/java.util.stream.ForEachOps$ForEachOp$OfRef.evaluateSequential(ForEachOps.java:174)
at java.base/java.util.stream.AbstractPipeline.evaluate(AbstractPipeline.java:234)
at java.base/java.util.stream.ReferencePipeline.forEach(ReferencePipeline.java:596)
at ***************.vector.VectorInit.loadVectors(VectorInit.java:37)
...
Подробнее здесь: https://stackoverflow.com/questions/791 ... ent-exceed
Spring пакетная обработка не позволяет использовать большой документ: «Токены в одном документе превышают максимальное к ⇐ JAVA
Программисты JAVA общаются здесь
1731638917
Anonymous
У меня есть куча документов, которые я хотел бы встроить в векторный формат и сохранить в своей базе данных Postgres. Некоторые из этих документов очень длинные, поэтому я использую Spring BatchingStrategy, чтобы разделить их. Я получаю сообщение об ошибке от дозатора о том, что во входном документе слишком много токенов... Вся суть дозатора в том, чтобы разделить его так, чтобы в каждом из них было полезное количество токенов. документ, почему он выдает ошибку, когда в него вводится много токенов?
import org.springframework.ai.document.Document;
import org.springframework.ai.embedding.BatchingStrategy;
import org.springframework.ai.reader.tika.TikaDocumentReader;
import org.springframework.ai.vectorstore.VectorStore;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.core.io.FileSystemResource;
import org.springframework.stereotype.Component;
import java.io.File;
import java.io.IOException;
import java.nio.file.Files;
import java.util.ArrayList;
import java.util.List;
@Component
public class VectorInit {
@Autowired
VectorStore vectorStore;
@Autowired
BatchingStrategy batchingStrategy;
public void loadVectors(String folderPath) throws IOException {
List d = new ArrayList();
File folder = new File(folderPath);
if (!folder.isDirectory()) {
throw new IllegalArgumentException("Provided path is not a directory: " + folderPath);
}
Files.walk(folder.toPath())
.filter(Files::isRegularFile)
.forEach(f -> {
System.out.println("Reading file: " + f);
TikaDocumentReader reader = new TikaDocumentReader(new FileSystemResource(f.toFile()));
List readDocs = reader.read();
readDocs.forEach(
doc -> {
System.out.println("Read doc: " + doc.getId() + "; size: " + doc.getContent().length());
batchingStrategy.batch(readDocs).forEach(batch -> { // This is the line with the error
System.out.println("Adding batch of size: " + batch.size());
d.addAll(batch);
});
}
);
});
vectorStore.add(d);
}
}
import com.knuddels.jtokkit.api.EncodingType;
import org.springframework.ai.embedding.BatchingStrategy;
import org.springframework.ai.embedding.TokenCountBatchingStrategy;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
@Configuration
public class EmbeddingConfig {
@Bean
public BatchingStrategy customTokenCountBatchingStrategy() {
return new TokenCountBatchingStrategy(
EncodingType.CL100K_BASE,
8000,
.1
);
}
}
Reading file: ***************.html
Read doc: ***************; size: 189772
java.lang.IllegalArgumentException: Tokens in a single document exceeds the maximum number of allowed input tokens
at org.springframework.ai.embedding.TokenCountBatchingStrategy.batch(TokenCountBatchingStrategy.java:148)
at ***************.vector.VectorInit.lambda$loadVectors$2(VectorInit.java:44)
at java.base/java.lang.Iterable.forEach(Iterable.java:75)
at ***************.vector.VectorInit.lambda$loadVectors$3(VectorInit.java:41)
at java.base/java.util.stream.ForEachOps$ForEachOp$OfRef.accept(ForEachOps.java:184)
at java.base/java.util.stream.ReferencePipeline$2$1.accept(ReferencePipeline.java:179)
at java.base/java.util.stream.ReferencePipeline$3$1.accept(ReferencePipeline.java:197)
at java.base/java.util.Iterator.forEachRemaining(Iterator.java:133)
at java.base/java.util.Spliterators$IteratorSpliterator.forEachRemaining(Spliterators.java:1939)
at java.base/java.util.stream.AbstractPipeline.copyInto(AbstractPipeline.java:509)
at java.base/java.util.stream.AbstractPipeline.wrapAndCopyInto(AbstractPipeline.java:499)
at java.base/java.util.stream.ForEachOps$ForEachOp.evaluateSequential(ForEachOps.java:151)
at java.base/java.util.stream.ForEachOps$ForEachOp$OfRef.evaluateSequential(ForEachOps.java:174)
at java.base/java.util.stream.AbstractPipeline.evaluate(AbstractPipeline.java:234)
at java.base/java.util.stream.ReferencePipeline.forEach(ReferencePipeline.java:596)
at ***************.vector.VectorInit.loadVectors(VectorInit.java:37)
...
Подробнее здесь: [url]https://stackoverflow.com/questions/79190985/spring-batching-not-allowing-large-document-tokens-in-a-single-document-exceed[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия