Как получить очищенные данные из зашумленного tsv-файла с помощью регулярного выражения? - Цифровое Кемерово

Как получить очищенные данные из зашумленного tsv-файла с помощью регулярного выражения? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как получить очищенные данные из зашумленного tsv-файла с помощью регулярного выражения?

Цитата

Сообщение Anonymous » 18 май 2024, 08:55

Мне нужно очистить данные, хранящиеся в tsv, в фрейме данных с помощью регулярного выражения, для справки: данные выглядят так

Код: Выделить всё

ps8trw17rlo16s  dh7r1wjixjse72  Theoretical movements expensive. In rural areas, especially at The Fox  positive    2020-06-01 00:00:00
psw4o545h8gc2h  dhykkf6486p9ra  Ave SW components on the East in 1498, and soon
Educational campaigns encounter difficulty. To Socrates, a person will experience a continental    positive    2020-06-01 00:07:00
pscnx5eqtjocca  dhn4dhhp3wm5lt  Kinds are larger, possibly over two million. The country is the city's average. Hollywood    Fril Functional four national
Pp. Cayton, Cage is     Has opened (RTA) coordinates the operation positive    2020-06-01 00:14:00

данные имеют неверный формат, и мне приходится разделять данные на pid, uid, text, предсказание, datetile
Это мой код

Код: Выделить всё

# Sample file path
input_file_path = 'logs.tsv'
output_file_path = 'cleaned_logs.txt'

# Read the malformed TSV file and write it to a text file
with open(input_file_path, 'r', encoding='utf-8') as infile, open(output_file_path, 'w', encoding='utf-8') as outfile:
for line in infile:
outfile.write(line)
import pandas as pd
import re

# Define regex patterns for each column
patterns = {
'pid': r'[A-Za-z0-9]+',  # Matches a word (alphanumeric characters)
'uid': r'[A-Za-z0-9]+',  # Matches a word (alphanumeric characters)
'text': r'([^\t]+)\t([^\t]+)\t([^\t]+)',  # Matches the entire text (paragraph)
'prediction': r'(positive|negative)',  # Matches 'positive' or 'negative'
'datetime': r'[0-9]{4}-[0-9]{2}-[0-9]{2}\s[0-9]{2}:[0-9]{2}:[0-9]{2}(\.[0-9]{1,3})?'  # Matches datetime format 'YYYY-MM-DD HH:MM:SS'
}

# Function to clean each row based on its pattern
def clean_row(row):
columns = row.split('\t')
if len(columns) != 5:
return [None, None, None, None, None]  # Return a list of Nones if the row is malformed

cleaned_data = []
cleaned_data.append(re.match(patterns['pid'], columns[0]).group(0) if re.match(patterns['pid'], columns[0]) else None)
cleaned_data.append(re.match(patterns['uid'], columns[1]).group(0) if re.match(patterns['uid'], columns[1]) else None)
cleaned_data.append(re.match(patterns['text'], columns[2]).group(0) if re.match(patterns['text'], columns[2]) else None)
cleaned_data.append(re.match(patterns['prediction'], columns[3]).group(0) if re.match(patterns['prediction'], columns[3]) else None)
cleaned_data.append(re.match(patterns['datetime'], columns[4]).group(0) if re.match(patterns['datetime'], columns[4]) else None)
return cleaned_data

# Read the cleaned text file
with open(output_file_path, 'r', encoding='utf-8') as file:
rows = file.readlines()

# Initialize a list to collect cleaned rows
cleaned_rows = []

# Process each row with its corresponding pattern
for row in rows:
row = row.strip()  # Remove leading/trailing whitespace
cleaned_row = clean_row(row)
cleaned_rows.append(cleaned_row)

# Convert the cleaned rows to a DataFrame
df = pd.DataFrame(cleaned_rows, columns=['pid', 'uid', 'text', 'prediction', 'datetime'])

# Display the DataFrame
print(df)

# Optionally, save the DataFrame to a CSV file
df.to_csv('cleaned_logs.csv', index=False)

Какую строку регулярного выражения мне следует использовать для решения такой проблемы?
Я пробовал работать построчно, но мне все равно не удалось захватить весь текст< /п>

Подробнее здесь: https://stackoverflow.com/questions/784 ... sing-regex

Реклама

1716011730

Anonymous

Мне нужно очистить данные, хранящиеся в tsv, в фрейме данных с помощью регулярного выражения, для справки: данные выглядят так
[code]ps8trw17rlo16s  dh7r1wjixjse72  Theoretical movements expensive. In rural areas, especially at The Fox  positive    2020-06-01 00:00:00
psw4o545h8gc2h  dhykkf6486p9ra  Ave SW components on the East in 1498, and soon
Educational campaigns encounter difficulty. To Socrates, a person will experience a continental    positive    2020-06-01 00:07:00
pscnx5eqtjocca  dhn4dhhp3wm5lt  Kinds are larger, possibly over two million. The country is the city's average. Hollywood    Fril Functional four national
Pp. Cayton, Cage is     Has opened (RTA) coordinates the operation positive    2020-06-01 00:14:00
[/code]
данные имеют неверный формат, и мне приходится разделять данные на pid, uid, text, предсказание, datetile
Это мой код 
[code]# Sample file path
input_file_path = 'logs.tsv'
output_file_path = 'cleaned_logs.txt'

# Read the malformed TSV file and write it to a text file
with open(input_file_path, 'r', encoding='utf-8') as infile, open(output_file_path, 'w', encoding='utf-8') as outfile:
for line in infile:
outfile.write(line)
import pandas as pd
import re

# Define regex patterns for each column
patterns = {
'pid': r'[A-Za-z0-9]+',  # Matches a word (alphanumeric characters)
'uid': r'[A-Za-z0-9]+',  # Matches a word (alphanumeric characters)
'text': r'([^\t]+)\t([^\t]+)\t([^\t]+)',  # Matches the entire text (paragraph)
'prediction': r'(positive|negative)',  # Matches 'positive' or 'negative'
'datetime': r'[0-9]{4}-[0-9]{2}-[0-9]{2}\s[0-9]{2}:[0-9]{2}:[0-9]{2}(\.[0-9]{1,3})?'  # Matches datetime format 'YYYY-MM-DD HH:MM:SS'
}

# Function to clean each row based on its pattern
def clean_row(row):
columns = row.split('\t')
if len(columns) != 5:
return [None, None, None, None, None]  # Return a list of Nones if the row is malformed

cleaned_data = []
cleaned_data.append(re.match(patterns['pid'], columns[0]).group(0) if re.match(patterns['pid'], columns[0]) else None)
cleaned_data.append(re.match(patterns['uid'], columns[1]).group(0) if re.match(patterns['uid'], columns[1]) else None)
cleaned_data.append(re.match(patterns['text'], columns[2]).group(0) if re.match(patterns['text'], columns[2]) else None)
cleaned_data.append(re.match(patterns['prediction'], columns[3]).group(0) if re.match(patterns['prediction'], columns[3]) else None)
cleaned_data.append(re.match(patterns['datetime'], columns[4]).group(0) if re.match(patterns['datetime'], columns[4]) else None)
return cleaned_data

# Read the cleaned text file
with open(output_file_path, 'r', encoding='utf-8') as file:
rows = file.readlines()

# Initialize a list to collect cleaned rows
cleaned_rows = []

# Process each row with its corresponding pattern
for row in rows:
row = row.strip()  # Remove leading/trailing whitespace
cleaned_row = clean_row(row)
cleaned_rows.append(cleaned_row)

# Convert the cleaned rows to a DataFrame
df = pd.DataFrame(cleaned_rows, columns=['pid', 'uid', 'text', 'prediction', 'datetime'])

# Display the DataFrame
print(df)

# Optionally, save the DataFrame to a CSV file
df.to_csv('cleaned_logs.csv', index=False)

[/code]
Какую строку регулярного выражения мне следует использовать для решения такой проблемы?
Я пробовал работать построчно, но мне все равно не удалось захватить весь текст< /п> 

Подробнее здесь: [url]https://stackoverflow.com/questions/78498734/how-to-get-cleaned-data-from-a-noisy-tsv-file-using-regex[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Написание регулярного выражения регулярного выражения для обнаружения условий IN с тем же именем столбца и их замены.

Последнее сообщение Anonymous « 21 май 2024, 02:19
Добавлено в форуме Php

Anonymous » 21 май 2024, 02:19 » в форуме Php

Моя страница получает условия в виде строк в массиве откуда-то, что я не могу изменить. Значения массива выглядят следующим образом:
$array_conditions = column1 IN (1, 2, 3, 4)
У меня настроен цикл для прохождения этих условий и построения строки...

0 Ответы

96 Просмотры

Последнее сообщение Anonymous
21 май 2024, 02:19
Написание регулярного выражения регулярного выражения для обнаружения условий IN с тем же именем столбца и их замены.

Последнее сообщение Anonymous « 22 май 2024, 03:56
Добавлено в форуме Php

Anonymous » 22 май 2024, 03:56 » в форуме Php

Моя страница получает условия в виде строк в массиве откуда-то, что я не могу изменить. Значения массива выглядят следующим образом:
$array_conditions = column1 IN (1, 2, 3, 4)
У меня настроен цикл для прохождения этих условий и построения строки...

0 Ответы

129 Просмотры

Последнее сообщение Anonymous
22 май 2024, 03:56
Написание регулярного выражения регулярного выражения для обнаружения условий IN с тем же именем столбца и их замены.

Последнее сообщение Anonymous « 22 май 2024, 04:02
Добавлено в форуме Php

Anonymous » 22 май 2024, 04:02 » в форуме Php

Моя страница получает условия в виде строк в массиве откуда-то, что я не могу изменить. Значения массива выглядят следующим образом:
$array_conditions = column1 IN (1, 2, 3, 4)
У меня настроен цикл для прохождения этих условий и построения строки...

0 Ответы

114 Просмотры

Последнее сообщение Anonymous
22 май 2024, 04:02
Может ли php сохранять очищенные данные в файл кеша с именем CURRENT DATE?

Последнее сообщение Anonymous « 28 июл 2024, 16:37
Добавлено в форуме Php

Anonymous » 28 июл 2024, 16:37 » в форуме Php

Я спрашиваю, потому что мне нужен график с историческими данными, в том числе с самой последней даты. Я знаю, как сохранить очищенные данные под определенным именем и сохранить их в папке кеша.

Если это возможно, вместо того, чтобы говорить......

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
28 июл 2024, 16:37
Почему этот HTML-шаблон не отображает очищенные данные веб-сайта в веб-браузере при использовании Flask?

Последнее сообщение Anonymous « 27 окт 2024, 17:21
Добавлено в форуме Python

Anonymous » 27 окт 2024, 17:21 » в форуме Python

Всякий раз, когда я распечатываю очищенные данные в терминале, они отображаются нормально, но всякий раз, когда я пытаюсь обслужить их с помощью Python Flask, шаблон HTML, который я использую, не отображает данные в веб-браузере. Не могли бы вы...

0 Ответы

30 Просмотры

Последнее сообщение Anonymous
27 окт 2024, 17:21

Вернуться в «Python»

Programmiererforum