Прогнозирование категории текста

Прогнозирование категории текста ⇐ Php

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 04 дек 2024, 21:40

Мне нужно создать какой-то метод, позволяющий предсказывать категорию текста.
Сейчас я использую PHP-ML следующим образом:

Код: Выделить всё

    $texts = $queriesService->getTexts();

foreach($texts as $key => $text){
$string = preg_replace('/\s+/', ' ', strip_tags($text['text']));
$string = str_replace('"', '', $string);
$samples[] = $string;
$labels[] = $text['category'];
}

$tokenize = new WordTokenizer();
$vectorizer = new TokenCountVectorizer($tokenize);

$vectorizer->fit($samples);
$vectorizer->transform($samples);

$transformer = new TfIdfTransformer($samples);
$transformer->transform($samples);

$classifier = new NaiveBayes();
$classifier->train($samples, $labels);

$testSamples = [
'Sample text about some products',
'this is regarding bad service',
'For some reasom electronic device is not working',
];

$vectorizer->transform($testSamples);
$transformer->transform($testSamples);

$predictions = $classifier->predict($testSamples);

Так работает нормально, но проблема в том, что он использует много памяти. Тексты, о которых идет речь, варьируются от 5 до 200 слов, а их около 100 тысяч.
Даже при обучении классификатора и сохранении его в файле размер файла превышает 10 ГБ, поэтому чтение это требовало огромного количества памяти. Есть ли лучший способ сделать это?

Подробнее здесь: https://stackoverflow.com/questions/792 ... prediction

1733337642

Anonymous

Мне нужно создать какой-то метод, позволяющий предсказывать категорию текста.
Сейчас я использую PHP-ML следующим образом:
[code]    $texts = $queriesService->getTexts();

foreach($texts as $key => $text){
$string = preg_replace('/\s+/', ' ', strip_tags($text['text']));
$string = str_replace('"', '', $string);
$samples[] = $string;
$labels[] = $text['category'];
}

$tokenize = new WordTokenizer();
$vectorizer = new TokenCountVectorizer($tokenize);

$vectorizer->fit($samples);
$vectorizer->transform($samples);

$transformer = new TfIdfTransformer($samples);
$transformer->transform($samples);

$classifier = new NaiveBayes();
$classifier->train($samples, $labels);

$testSamples = [
'Sample text about some products',
'this is regarding bad service',
'For some reasom electronic device is not working',
];

$vectorizer->transform($testSamples);
$transformer->transform($testSamples);

$predictions = $classifier->predict($testSamples);
[/code]
Так работает нормально, но проблема в том, что он использует много памяти. Тексты, о которых идет речь, варьируются от 5 до 200 слов, а их около 100 тысяч.
Даже при обучении классификатора и сохранении его в файле размер файла превышает 10 ГБ, поэтому чтение это требовало огромного количества памяти. Есть ли лучший способ сделать это? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79252250/text-category-prediction[/url]