Spring пакетная обработка не позволяет использовать большой документ: «Токены в одном документе превышают максимальное к

Spring пакетная обработка не позволяет использовать большой документ: «Токены в одном документе превышают максимальное к ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Spring пакетная обработка не позволяет использовать большой документ: «Токены в одном документе превышают максимальное к

Цитата

Сообщение Anonymous » 15 ноя 2024, 05:48

У меня есть куча документов, которые я хотел бы встроить в векторный формат и сохранить в своей базе данных Postgres. Некоторые из этих документов очень длинные, поэтому я использую Spring BatchingStrategy, чтобы разделить их. Я получаю сообщение об ошибке от дозатора о том, что во входном документе слишком много токенов... Вся суть дозатора в том, чтобы разделить его так, чтобы в каждом из них было полезное количество токенов. документ, почему он выдает ошибку, когда в него вводится много токенов?
import org.springframework.ai.document.Document;
import org.springframework.ai.embedding.BatchingStrategy;
import org.springframework.ai.reader.tika.TikaDocumentReader;
import org.springframework.ai.vectorstore.VectorStore;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.core.io.FileSystemResource;
import org.springframework.stereotype.Component;

import java.io.File;
import java.io.IOException;
import java.nio.file.Files;
import java.util.ArrayList;
import java.util.List;

@Component
public class VectorInit {

@Autowired
VectorStore vectorStore;

@Autowired
BatchingStrategy batchingStrategy;

public void loadVectors(String folderPath) throws IOException {
List d = new ArrayList();
File folder = new File(folderPath);
if (!folder.isDirectory()) {
throw new IllegalArgumentException("Provided path is not a directory: " + folderPath);
}

Files.walk(folder.toPath())
.filter(Files::isRegularFile)
.forEach(f -> {
System.out.println("Reading file: " + f);
TikaDocumentReader reader = new TikaDocumentReader(new FileSystemResource(f.toFile()));
List readDocs = reader.read();
readDocs.forEach(
doc -> {
System.out.println("Read doc: " + doc.getId() + "; size: " + doc.getContent().length());
batchingStrategy.batch(readDocs).forEach(batch -> { // This is the line with the error
System.out.println("Adding batch of size: " + batch.size());
d.addAll(batch);
});
}
);

});
vectorStore.add(d);
}
}

import com.knuddels.jtokkit.api.EncodingType;
import org.springframework.ai.embedding.BatchingStrategy;
import org.springframework.ai.embedding.TokenCountBatchingStrategy;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

@Configuration
public class EmbeddingConfig {
@Bean
public BatchingStrategy customTokenCountBatchingStrategy() {

return new TokenCountBatchingStrategy(
EncodingType.CL100K_BASE,
8000,
.1
);
}
}

Reading file: ***************.html
Read doc: ***************; size: 189772
java.lang.IllegalArgumentException: Tokens in a single document exceeds the maximum number of allowed input tokens
at org.springframework.ai.embedding.TokenCountBatchingStrategy.batch(TokenCountBatchingStrategy.java:148)
at ***************.vector.VectorInit.lambda$loadVectors$2(VectorInit.java:44)
at java.base/java.lang.Iterable.forEach(Iterable.java:75)
at ***************.vector.VectorInit.lambda$loadVectors$3(VectorInit.java:41)
at java.base/java.util.stream.ForEachOps$ForEachOp$OfRef.accept(ForEachOps.java:184)
at java.base/java.util.stream.ReferencePipeline$2$1.accept(ReferencePipeline.java:179)
at java.base/java.util.stream.ReferencePipeline$3$1.accept(ReferencePipeline.java:197)
at java.base/java.util.Iterator.forEachRemaining(Iterator.java:133)
at java.base/java.util.Spliterators$IteratorSpliterator.forEachRemaining(Spliterators.java:1939)
at java.base/java.util.stream.AbstractPipeline.copyInto(AbstractPipeline.java:509)
at java.base/java.util.stream.AbstractPipeline.wrapAndCopyInto(AbstractPipeline.java:499)
at java.base/java.util.stream.ForEachOps$ForEachOp.evaluateSequential(ForEachOps.java:151)
at java.base/java.util.stream.ForEachOps$ForEachOp$OfRef.evaluateSequential(ForEachOps.java:174)
at java.base/java.util.stream.AbstractPipeline.evaluate(AbstractPipeline.java:234)
at java.base/java.util.stream.ReferencePipeline.forEach(ReferencePipeline.java:596)
at ***************.vector.VectorInit.loadVectors(VectorInit.java:37)
...

Подробнее здесь: https://stackoverflow.com/questions/791 ... ent-exceed

1731638917

Anonymous

У меня есть куча документов, которые я хотел бы встроить в векторный формат и сохранить в своей базе данных Postgres. Некоторые из этих документов очень длинные, поэтому я использую Spring BatchingStrategy, чтобы разделить их. Я получаю сообщение об ошибке от дозатора о том, что во входном документе слишком много токенов... Вся суть дозатора в том, чтобы разделить его так, чтобы в каждом из них было полезное количество токенов.  документ, почему он выдает ошибку, когда в него вводится много токенов?
import org.springframework.ai.document.Document;
import org.springframework.ai.embedding.BatchingStrategy;
import org.springframework.ai.reader.tika.TikaDocumentReader;
import org.springframework.ai.vectorstore.VectorStore;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.core.io.FileSystemResource;
import org.springframework.stereotype.Component;

import java.io.File;
import java.io.IOException;
import java.nio.file.Files;
import java.util.ArrayList;
import java.util.List;

@Component
public class VectorInit {

@Autowired
VectorStore vectorStore;

@Autowired
BatchingStrategy batchingStrategy;

public void loadVectors(String folderPath) throws IOException {
List d = new ArrayList();
File folder = new File(folderPath);
if (!folder.isDirectory()) {
throw new IllegalArgumentException("Provided path is not a directory: " + folderPath);
}

Files.walk(folder.toPath())
.filter(Files::isRegularFile)
.forEach(f -> {
System.out.println("Reading file: " + f);
TikaDocumentReader reader = new TikaDocumentReader(new FileSystemResource(f.toFile()));
List readDocs = reader.read();
readDocs.forEach(
doc -> {
System.out.println("Read doc: " + doc.getId() + "; size: " + doc.getContent().length());
batchingStrategy.batch(readDocs).forEach(batch -> { // This is the line with the error
System.out.println("Adding batch of size: " + batch.size());
d.addAll(batch);
});
}
);

});
vectorStore.add(d);
}
}

import com.knuddels.jtokkit.api.EncodingType;
import org.springframework.ai.embedding.BatchingStrategy;
import org.springframework.ai.embedding.TokenCountBatchingStrategy;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

@Configuration
public class EmbeddingConfig {
@Bean
public BatchingStrategy customTokenCountBatchingStrategy() {

return new TokenCountBatchingStrategy(
EncodingType.CL100K_BASE,
8000,
.1
);
}
}

Reading file: ***************.html
Read doc: ***************; size: 189772
java.lang.IllegalArgumentException: Tokens in a single document exceeds the maximum number of allowed input tokens
at org.springframework.ai.embedding.TokenCountBatchingStrategy.batch(TokenCountBatchingStrategy.java:148)
at ***************.vector.VectorInit.lambda$loadVectors$2(VectorInit.java:44)
at java.base/java.lang.Iterable.forEach(Iterable.java:75)
at ***************.vector.VectorInit.lambda$loadVectors$3(VectorInit.java:41)
at java.base/java.util.stream.ForEachOps$ForEachOp$OfRef.accept(ForEachOps.java:184)
at java.base/java.util.stream.ReferencePipeline$2$1.accept(ReferencePipeline.java:179)
at java.base/java.util.stream.ReferencePipeline$3$1.accept(ReferencePipeline.java:197)
at java.base/java.util.Iterator.forEachRemaining(Iterator.java:133)
at java.base/java.util.Spliterators$IteratorSpliterator.forEachRemaining(Spliterators.java:1939)
at java.base/java.util.stream.AbstractPipeline.copyInto(AbstractPipeline.java:509)
at java.base/java.util.stream.AbstractPipeline.wrapAndCopyInto(AbstractPipeline.java:499)
at java.base/java.util.stream.ForEachOps$ForEachOp.evaluateSequential(ForEachOps.java:151)
at java.base/java.util.stream.ForEachOps$ForEachOp$OfRef.evaluateSequential(ForEachOps.java:174)
at java.base/java.util.stream.AbstractPipeline.evaluate(AbstractPipeline.java:234)
at java.base/java.util.stream.ReferencePipeline.forEach(ReferencePipeline.java:596)
at ***************.vector.VectorInit.loadVectors(VectorInit.java:37)
...
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79190985/spring-batching-not-allowing-large-document-tokens-in-a-single-document-exceed[/url]