Итак... У меня есть файл Excel, который содержит два столбца: один с текстом, похожим на фразы, а другой - с классификацией от «CS1» до «CS8». Текст выглядит примерно так: «NE PAGTO PROVENTOS APOSENTADORIA ESPECIAL SERVIDORES SAÚDE, NOV/2024. REF. FATURA 033/2024. INCLUI REFORMA DE ESCOLAS». Я уже делал очистку другого файла, всего в файле 72 текста с df.shape = (72, 2)
Я новичок в машинном обучении, и точность держится ниже 50. %. Может ли кто-нибудь мне помочь?
файл clean_text.py:
import re
def clean_text(text):
text = re.sub(r'\d{1,4}/\d{4}', '', text)
text = re.sub(r'\d+', '', text)
text = re.sub(r'[^\w\s]', '', text)
text = text.lower()
return text
Итак... У меня есть файл Excel, который содержит два столбца: один с текстом, похожим на фразы, а другой - с классификацией от «CS1» до «CS8». Текст выглядит примерно так: «NE PAGTO PROVENTOS APOSENTADORIA ESPECIAL SERVIDORES SAÚDE, NOV/2024. REF. FATURA 033/2024. INCLUI REFORMA DE ESCOLAS». Я уже делал очистку другого файла, всего в файле 72 текста с df.shape = (72, 2) Я новичок в машинном обучении, и точность держится ниже 50. %. Может ли кто-нибудь мне помочь? файл clean_text.py: [code]import re
def clean_text(text): text = re.sub(r'\d{1,4}/\d{4}', '', text) text = re.sub(r'\d+', '', text) text = re.sub(r'[^\w\s]', '', text) text = text.lower() return text [/code] файл main.py: [code]import numpy as np import tensorflow as tf from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, Dropout, Input from tensorflow.keras.optimizers import Adam from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelEncoder from sklearn.metrics import classification_report, accuracy_score from transformers import TFAutoModel, AutoTokenizer import joblib import pandas as pd from nltk.corpus import stopwords import re from clean_text import clean_text