Дедупликация текстовыми блоками с фильтрацией

Дедупликация текстовыми блоками с фильтрацией ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Дедупликация текстовыми блоками с фильтрацией

Цитата

Сообщение Anonymous » 15 мар 2025, 20:06

Я пытаюсь создать скрипт на питоне, который удалит последовательные дублированные текстовые блоки из текстового файла, то есть сделайте что -то вроде следующего: < /p>

[*] Найдите текстовые блоки, которые одинаковы, на основе # ops (с максимальным размером блока, который определяет начальные максимальные блок, затем поведет в № 1 row в At a Max) < /li>> < / /) < /life life rows per -bloc последовательные дубликаты текстового блока x строки, удалите их и замените дубликаты простыми «... имеет дополнительные x аналогичные записи ...» после начального текстового блока, который имеет дубликаты, следуя им, и заменяет эти дубликаты. Перестроится с 1 пространством для варизон
[*] Любые цифры удаляются (включая «слова, которые начинаются с числа и заканчиваются с нуклером или периодом» - которые удаляют даты, например: xx/xx/xx, запятые/десятичные числа, например: 3,444.22 и точки EG: 1.) из каждых строк
SKIPS с ног (LIS -LI LI LILIP> Сравнение (т.е. игнорируется) < /li>
< /ol>
Результатом будет новый файл TXT, в котором удаляются дубликаты текстовых блоков.

Код: Выделить всё

def clean_for_comparison(line):
# Remove dollar amounts (e.g., $1,234.56) - additional example of cleaning row
line = re.sub(r'\$[\d,]+(?:\.\d+)?', '', line)
# Remove numbers with commas and decimals (e.g., 1,234.56)
line = re.sub(r'[\d,]+(?:\.\d+)?', '', line)
# Remove date-like patterns (e.g., 17/01/2020 or 17-01-2020)
line = re.sub(r'\d{1,2}[-/.\s]?\d{1,2}[-/.\s]?\d{2,4}', '', line)
# Remove words starting and ending with digits (e.g., 123abc456)
line = re.sub(r'\b\d+[a-zA-Z]+\d+\b', '', line)
# Normalize spaces and strip
line = re.sub(r'\s+', ' ', line)
line = line.strip()
return line
< /code>
Я пытаюсь использовать хэш -метод для текстового блока, сравнивая, построив блок с помощью x строки, но у меня возникают проблемы с тем, как он должен работать эффективно. < /p>
Я использую эти вспомогательные функции: < /p>
def get_block_hash(block):
cleaned_lines = [clean_for_comparison(line) for line in block]
non_blank_cleaned_lines = [line for line in cleaned_lines if line]
cleaned_block_content = ''.join(non_blank_cleaned_lines)
return hashlib.md5(cleaned_block_content.encode()).hexdigest()

def get_block(lines, start_index, max_size):
block = []
i = start_index
row_count = 0

while i < len(lines) and row_count < max_size:
line = lines[i].strip()
if line:
block.append(lines[i])
row_count += 1
i += 1

if i >= len(lines):
break
if lines[i - 1].strip() == "" and lines[i].strip() == "":
break

return block, i

Но он становится запутанным, пытаясь сделать это правильно/эффективно .... Пока я смотрел на этот подход, но это не совсем правильно ...

Код: Выделить всё

def process_file(file_path, max_consecutive_rows_to_check=4):
with open(file_path, 'r') as file:
lines = file.readlines()

filtered_lines = []
i = 0
removed_count = 0

while i < len(lines):
block, j = get_block(lines, i, max_consecutive_rows_to_check)
if not block:  # Skip processing.
i = j  # Increment
continue  # Skip empty block

# Sliding window comparison
for size in range(min(len(block), max_consecutive_rows_to_check), 0, -1):
block_to_compare = block[:size]
position_row = initial_block_start

while True:
compare_start = position_row +1 # use the next row outside the intial block to compare?
compare_block, next_k = get_block(lines, compare_start, size)
compare_line = compare_block

if len(compare_block) != size:
break  # Done with comapre - no more
if get_block_hash(block_to_compare) == get_block_hash(compare_block):
print("DUPE FOUND!")
found_dupes = True
total_dupes += 1 # dupe counter
position_row = compare_start #set next dupe position to compare consecutively with
i += compare_start
#continue #continue if it finds?
else: #Did not find anything
print("Not a dupe.")
break

# If duplicates were found:
if found_dupes:
print(f"Total duplicates found: {total_dupes}")
filtered_lines.extend(block)
filtered_lines.append(f".......\n")
removed_count += total_dupes

i = position_row+max_consecutive_rows_to_check #+1 + size?

# If no duplicates were found:
else:
print("No duplicates found, adding to filtered lines.")
filtered_lines.extend(block)

# Advance to next block
i =+max_consecutive_rows_to_check

# Output to new file
output_filename = file_path
if output_filename.endswith(".txt"):
output_filename = output_filename[:-4]
if not output_filename.endswith("-truncated"):
output_filename = f"{output_filename}-truncated.txt"

with open(output_filename, "w") as output_file:
output_file.writelines(filtered_lines)

print(f"Processed {len(lines)} lines from {file_path}")
print(f"Output saved to {output_filename}")
if removed_count > 0:
print(f"Removed {removed_count} duplicate blocks.")

....etc..
Любая справка в логическом потоке, эффективности или, если кто-то знает о том, что существует либера>

Подробнее здесь: https://stackoverflow.com/questions/795 ... -filtering

1742058395

Anonymous

 Я пытаюсь создать скрипт на питоне, который удалит последовательные дублированные текстовые блоки из текстового файла, то есть сделайте что -то вроде следующего: < /p>

[*] Найдите текстовые блоки, которые одинаковы, на основе # ops (с максимальным размером блока, который определяет начальные максимальные блок, затем поведет в № 1 row в At a Max) < /li>> < / /) < /life life rows per -bloc последовательные дубликаты текстового блока x строки, удалите их и замените дубликаты простыми «... имеет дополнительные x аналогичные записи ...» после начального текстового блока, который имеет дубликаты, следуя им, и заменяет эти дубликаты. Перестроится с 1 пространством для варизон
[*] Любые цифры удаляются (включая «слова, которые начинаются с числа и заканчиваются с нуклером или периодом» - которые удаляют даты, например: xx/xx/xx, запятые/десятичные числа, например: 3,444.22 и точки EG: 1.) из каждых строк
 SKIPS с ног (LIS -LI LI LILIP>  Сравнение (т.е. игнорируется) < /li>
< /ol>
Результатом будет новый файл TXT, в котором удаляются дубликаты текстовых блоков.[code]def clean_for_comparison(line):
# Remove dollar amounts (e.g., $1,234.56) - additional example of cleaning row
line = re.sub(r'\$[\d,]+(?:\.\d+)?', '', line)
# Remove numbers with commas and decimals (e.g., 1,234.56)
line = re.sub(r'[\d,]+(?:\.\d+)?', '', line)
# Remove date-like patterns (e.g., 17/01/2020 or 17-01-2020)
line = re.sub(r'\d{1,2}[-/.\s]?\d{1,2}[-/.\s]?\d{2,4}', '', line)
# Remove words starting and ending with digits (e.g., 123abc456)
line = re.sub(r'\b\d+[a-zA-Z]+\d+\b', '', line)
# Normalize spaces and strip
line = re.sub(r'\s+', ' ', line)
line = line.strip()
return line
< /code>
Я пытаюсь использовать хэш -метод для текстового блока, сравнивая, построив блок с помощью x строки, но у меня возникают проблемы с тем, как он должен работать эффективно. < /p>
Я использую эти вспомогательные функции: < /p>
def get_block_hash(block):
cleaned_lines = [clean_for_comparison(line) for line in block]
non_blank_cleaned_lines = [line for line in cleaned_lines if line]
cleaned_block_content = ''.join(non_blank_cleaned_lines)
return hashlib.md5(cleaned_block_content.encode()).hexdigest()

def get_block(lines, start_index, max_size):
block = []
i = start_index
row_count = 0

while i < len(lines) and row_count < max_size:
line = lines[i].strip()
if line:
block.append(lines[i])
row_count += 1
i += 1

if i >= len(lines):
break
if lines[i - 1].strip() == "" and lines[i].strip() == "":
break

return block, i
[/code]
Но он становится запутанным, пытаясь сделать это правильно/эффективно .... Пока я смотрел на этот подход, но это не совсем правильно ...  
[code]def process_file(file_path, max_consecutive_rows_to_check=4):
with open(file_path, 'r') as file:
lines = file.readlines()

filtered_lines = []
i = 0
removed_count = 0

while i < len(lines):
block, j = get_block(lines, i, max_consecutive_rows_to_check)
if not block:  # Skip processing.
i = j  # Increment
continue  # Skip empty block

# Sliding window comparison
for size in range(min(len(block), max_consecutive_rows_to_check), 0, -1):
block_to_compare = block[:size]
position_row = initial_block_start

while True:
compare_start = position_row +1 # use the next row outside the intial block to compare?
compare_block, next_k = get_block(lines, compare_start, size)
compare_line = compare_block

if len(compare_block) != size:
break  # Done with comapre - no more
if get_block_hash(block_to_compare) == get_block_hash(compare_block):
print("DUPE FOUND!")
found_dupes = True
total_dupes += 1 # dupe counter
position_row = compare_start #set next dupe position to compare consecutively with
i += compare_start
#continue #continue if it finds?
else: #Did not find anything
print("Not a dupe.")
break

# If duplicates were found:
if found_dupes:
print(f"Total duplicates found: {total_dupes}")
filtered_lines.extend(block)
filtered_lines.append(f".......\n")
removed_count += total_dupes

i = position_row+max_consecutive_rows_to_check #+1 + size?

# If no duplicates were found:
else:
print("No duplicates found, adding to filtered lines.")
filtered_lines.extend(block)

# Advance to next block
i =+max_consecutive_rows_to_check

# Output to new file
output_filename = file_path
if output_filename.endswith(".txt"):
output_filename = output_filename[:-4]
if not output_filename.endswith("-truncated"):
output_filename = f"{output_filename}-truncated.txt"

with open(output_filename, "w") as output_file:
output_file.writelines(filtered_lines)

print(f"Processed {len(lines)} lines from {file_path}")
print(f"Output saved to {output_filename}")
if removed_count > 0:
print(f"Removed {removed_count} duplicate blocks.")
[/code]
....etc..
Любая справка в логическом потоке, эффективности или, если кто-то знает о том, что существует либера> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79511468/deduplication-by-text-blocks-with-filtering[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Дедупликация текстовыми блоками с фильтрацией

Последнее сообщение Anonymous « 15 мар 2025, 22:02
Добавлено в форуме Python

Anonymous » 15 мар 2025, 22:02 » в форуме Python

Я пытаюсь создать скрипт на питоне, который удалит последовательные дублированные текстовые блоки из текстового файла, то есть сделайте что -то вроде следующего:

Найдите текстовые блоки, которые одинаковы, на основе # ops (с максимальным размером...

0 Ответы

59 Просмотры

Последнее сообщение Anonymous
15 мар 2025, 22:02
Дедупликация запроса на загрузку изображения фрески при использовании Imagerequest и ImageView

Последнее сообщение Anonymous « 29 янв 2025, 20:46
Добавлено в форуме Android

Anonymous » 29 янв 2025, 20:46 » в форуме Android

Я использую FRESCO 2.5 и загружаю изображение для URL в Android ImageView. , к сожалению, я не могу использовать SimpleDrawee. Br /> Я мог бы создать одновременную карту, где я помещаю URL и Imagerequest в карту. И если ImageRequest для URL не...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
29 янв 2025, 20:46
Дедупликация поддержки ZGC Collector Collector Struck?

Последнее сообщение Anonymous « 14 фев 2025, 12:08
Добавлено в форуме JAVA

Anonymous » 14 фев 2025, 12:08 » в форуме JAVA

Поскольку он не указан в качестве опции по адресу я предполагаю, что это не поддерживается. Некоторый код тестов заставил меня задуматься, поддерживается ли он?

Подробнее здесь:

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
14 фев 2025, 12:08
Проблема Mapbox с фильтрацией слоев с использованием массива значений

Последнее сообщение Гость « 20 сен 2023, 20:48
Добавлено в форуме Javascript

Гость » 20 сен 2023, 20:48 » в форуме Javascript

У меня возникли проблемы с фильтрацией слоя разговоров. Кажется, он работает нормально на слое маршрутов, хотя кажется, что свойства route_long_name существуют на обоих слоях, и когда я вручную фильтрую объекты, они фильтруются просто отлично. Это я...

0 Ответы

36 Просмотры

Последнее сообщение Гость
20 сен 2023, 20:48
Telerik RadGridView — настраиваемые элементы управления фильтрацией для списка моделей просмотра.

Последнее сообщение Anonymous « 11 июл 2024, 18:22
Добавлено в форуме C#

Anonymous » 11 июл 2024, 18:22 » в форуме C#

Мне нужна помощь с дизайном и внедрением пользовательского фильтра. Если кто-то может помочь мне с небольшим примером или базовой структурой, я читал документацию «Пользовательские элементы управления фильтрацией», но у меня возникли проблемы с ее...

0 Ответы

37 Просмотры

Последнее сообщение Anonymous
11 июл 2024, 18:22

Вернуться в «Python»