Прогноз категории текста [закрыто]Php

Кемеровские программисты php общаются здесь
Ответить
Anonymous
 Прогноз категории текста [закрыто]

Сообщение Anonymous »

Мне нужно создать какой-то метод, позволяющий предсказывать категорию текста.
Сейчас я использую PHP-ML следующим образом:

Код: Выделить всё

    $texts = $queriesService->getTexts();

foreach($texts as $key => $text){
$string = preg_replace('/\s+/', ' ', strip_tags($text['text']));
$string = str_replace('"', '', $string);
$samples[] = $string;
$labels[] = $text['category'];
}

$tokenize = new WordTokenizer();
$vectorizer = new TokenCountVectorizer($tokenize);

$vectorizer->fit($samples);
$vectorizer->transform($samples);

$transformer = new TfIdfTransformer($samples);
$transformer->transform($samples);

$classifier = new NaiveBayes();
$classifier->train($samples, $labels);

$testSamples = [
'Sample text about some products',
'this is regarding bad service',
'For some reasom electronic device is not working',
];

$vectorizer->transform($testSamples);
$transformer->transform($testSamples);

$predictions = $classifier->predict($testSamples);
Так работает нормально, но проблема в том, что он использует много памяти. Тексты, о которых идет речь, варьируются от 5 до 200 слов, а их около 100 тысяч.
Даже при обучении классификатора и сохранении его в файле размер файла превышает 10 ГБ, поэтому чтение это требовало огромного количества памяти. Есть ли лучший способ сделать это?

Подробнее здесь: https://stackoverflow.com/questions/792 ... prediction
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Php»