Разработать более надежный метод обработки слов, который не влияет на коэффициент сходства при реконструкции предложений

Разработать более надежный метод обработки слов, который не влияет на коэффициент сходства при реконструкции предложений ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Разработать более надежный метод обработки слов, который не влияет на коэффициент сходства при реконструкции предложений

Цитата

Сообщение Anonymous » 18 сен 2024, 11:14

Я работаю над проектом, в котором восстанавливаю предложения, извлеченные из PDF-файла. Предложения предварительно обрабатываются с помощью send_tokenize из nltk, а слова, которые я пытаюсь сопоставить, извлекаются непосредственно из исходного PDF-файла (без предварительной обработки). Из-за этих различий я использую fuzz.ratio из библиотеки fuzzywuzzy (или thefuzz) для максимально точного сравнения и восстановления предложений, допуская небольшие изменения, такие как пунктуация, пробелы или разрывы строк.
Проблема, с которой я столкнулся, заключается в том, что некоторые слова не влияют на коэффициент сходства при добавлении, то есть они добавляются к текущему предложению, хотя на самом деле могут принадлежать следующему. В одном случае это даже произошло с таким словом, как «Следующий», которое, как я ожидал, будет весьма существенным.
Кроме того, длина предложения, похоже, влияет на это: по мере того, как предложение увеличивается, эффект от добавления отдельных слов уменьшается, что затрудняет принятие решения о том, к какому месту они принадлежат. Я также попробовал проверить эти слова в следующем предложении, но это усложняет ситуацию:

Слово может существовать в обоих предложениях, что приводит к совпадению символов. это ложно увеличивает соотношение.
Частичное совпадение символов слова в следующем предложении может создать впечатление, что слово принадлежит этому месту, хотя на самом деле это не так.

Почему я использую fuzz.ratio:
Предложения, которые я реконструирую, были предварительно обработаны с помощью nltk > send_tokenize, поэтому они могут отличаться от извлеченных слов (которые извлекаются из необработанного необработанного документа). fuzz.ratio учитывает эти различия, обрабатывая незначительные неточности в пунктуации и пробелах.
Минимальный пример, где я пытаюсь построить предложение из подмножества извлеченные слова:

Код: Выделить всё

from thefuzz import fuzz

# List of words extracted from a PDF (subset example)
all_pages_words = [
{"word": "Following"}, {"word": "the"}, {"word": "guidelines"},
{"word": "for"}, {"word": "submission"}, {"word": "are"}, {"word": "critical"},
{"word": "to"}, {"word": "success"}
]

# Sentence to match against
sentence_token = "Following the guidelines for submission"

# Construct sentence and calculate similarity
constructed_sentence = ""
old_similarity_ratio = fuzz.ratio(sentence_token, constructed_sentence)
starting_index = 0

while starting_index < len(all_pages_words):
last_word_index_pre_concatenation = len(constructed_sentence)
constructed_sentence += " " + all_pages_words[starting_index]["word"]

new_similarity_ratio = fuzz.ratio(sentence_token, constructed_sentence)

# Problem: some words don't affect the similarity ratio, causing issues
if new_similarity_ratio < old_similarity_ratio:
# Roll back and stop
constructed_sentence = constructed_sentence[:last_word_index_pre_concatenation]
break
else:
old_similarity_ratio = new_similarity_ratio

starting_index += 1

print(f"Final constructed sentence: {constructed_sentence.strip()}")

При восстановлении длинных предложений добавление отдельных слов (особенно ближе к концу) существенно не меняет соотношение, что затрудняет определение их принадлежности.
Я пробовал проверяет, принадлежат ли эти слова следующему предложению, но это приводит к новым проблемам:

Слово может существовать в обоих предложениях, что приводит к частичному совпадению символов и ложному увеличивая соотношение.
По мере увеличения следующего предложения эффект буферизованного слова становится меньше, что затрудняет определение того, действительно ли оно принадлежит.

Я даже пытался разработать систему, в которой я строю предложение дважды, по одному разу с каждого направления (лево-право и право-лево), чтобы гарантировать, что изменения соотношения остаются значительными, но это также не совсем надежно и добавляет больше сложности (не уверен, что я усложняю это слишком)
Вопрос

Как Могу ли я создать более надежный метод для обработки этих слов, который не будет существенно влиять на коэффициент сходства при восстановлении предложений?
Есть ли лучшие способы проверить, к какому месту принадлежат эти слова, не приписывая их ложно неправильное предложение?

Подробнее здесь: https://stackoverflow.com/questions/789 ... ilarity-ra

1726647259

Anonymous

Я работаю над проектом, в котором восстанавливаю предложения, извлеченные из PDF-файла. Предложения предварительно обрабатываются с помощью send_tokenize из nltk, а слова, которые я пытаюсь сопоставить, извлекаются непосредственно из исходного PDF-файла (без предварительной обработки). Из-за этих различий я использую fuzz.ratio из библиотеки fuzzywuzzy (или thefuzz) для максимально точного сравнения и восстановления предложений, допуская небольшие изменения, такие как пунктуация, пробелы или разрывы строк.
Проблема, с которой я столкнулся, заключается в том, что некоторые слова не влияют на коэффициент сходства при добавлении, то есть они добавляются к текущему предложению, хотя на самом деле могут принадлежать следующему. В одном случае это даже произошло с таким словом, как «Следующий», которое, как я ожидал, будет весьма существенным.
Кроме того, длина предложения, похоже, влияет на это: по мере того, как предложение увеличивается, эффект от добавления отдельных слов уменьшается, что затрудняет принятие решения о том, к какому месту они принадлежат. Я также попробовал проверить эти слова в следующем предложении, но это усложняет ситуацию:
[list]
[*]Слово может существовать в обоих предложениях, что приводит к совпадению символов. это ложно увеличивает соотношение.
[*]Частичное совпадение символов слова в следующем предложении может создать впечатление, что слово принадлежит этому месту, хотя на самом деле это не так.
[/list]
Почему я использую fuzz.ratio:
Предложения, которые я реконструирую, были предварительно обработаны с помощью nltk > send_tokenize, поэтому они могут отличаться от извлеченных слов (которые извлекаются из необработанного необработанного документа).  fuzz.ratio учитывает эти различия, обрабатывая незначительные неточности в пунктуации и пробелах.
[b]Минимальный пример, где я пытаюсь построить предложение из подмножества извлеченные слова:[/b]
[code]from thefuzz import fuzz

# List of words extracted from a PDF (subset example)
all_pages_words = [
{"word": "Following"}, {"word": "the"}, {"word": "guidelines"},
{"word": "for"}, {"word": "submission"}, {"word": "are"}, {"word": "critical"},
{"word": "to"}, {"word": "success"}
]

# Sentence to match against
sentence_token = "Following the guidelines for submission"

# Construct sentence and calculate similarity
constructed_sentence = ""
old_similarity_ratio = fuzz.ratio(sentence_token, constructed_sentence)
starting_index = 0

while starting_index < len(all_pages_words):
last_word_index_pre_concatenation = len(constructed_sentence)
constructed_sentence += " " + all_pages_words[starting_index]["word"]

new_similarity_ratio = fuzz.ratio(sentence_token, constructed_sentence)

# Problem: some words don't affect the similarity ratio, causing issues
if new_similarity_ratio < old_similarity_ratio:
# Roll back and stop
constructed_sentence = constructed_sentence[:last_word_index_pre_concatenation]
break
else:
old_similarity_ratio = new_similarity_ratio

starting_index += 1

print(f"Final constructed sentence: {constructed_sentence.strip()}")
[/code]
При восстановлении длинных предложений добавление отдельных слов (особенно ближе к концу) существенно не меняет соотношение, что затрудняет определение их принадлежности.
Я пробовал проверяет, принадлежат ли эти слова следующему предложению, но это приводит к новым проблемам:
[list]
[*]Слово может существовать в обоих предложениях, что приводит к частичному совпадению символов и ложному увеличивая соотношение.
[*]По мере увеличения следующего предложения эффект буферизованного слова становится меньше, что затрудняет определение того, действительно ли оно принадлежит.
[/list]
Я даже пытался разработать систему, в которой я строю предложение дважды, по одному разу с каждого направления (лево-право и право-лево), чтобы гарантировать, что изменения соотношения остаются значительными, но это также не совсем надежно и добавляет больше сложности (не уверен, что я усложняю это слишком)
[b]Вопрос[/b]
[list]
[*]Как Могу ли я создать более надежный метод для обработки этих слов, который не будет существенно влиять на коэффициент сходства при восстановлении предложений?
[*]Есть ли лучшие способы проверить, к какому месту принадлежат эти слова, не приписывая их ложно неправильное предложение?
[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/78997195/develop-a-more-robust-method-to-handle-words-that-don-t-affect-the-similarity-ra[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Оптимизация иерархического сходства сходства адреса на большем данных о данных с DASK

Последнее сообщение Anonymous « 01 июл 2025, 17:22
Добавлено в форуме Python

Anonymous » 01 июл 2025, 17:22 » в форуме Python

Я работаю с очень большим набором данных (десятки миллионов строк), который содержит комбинации адресов во многих странах. Каждая строка представляет собой пару адресов, и я уже проанализировал эти адреса, используя модель Deepparse, поэтому мой...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
01 июл 2025, 17:22
Вычисление показателя сходства слов в Python

Последнее сообщение Anonymous « 18 ноя 2024, 02:19
Добавлено в форуме Python

Anonymous » 18 ноя 2024, 02:19 » в форуме Python

Я пытаюсь вычислить сходство книг, сравнивая списки тем.
Нужно получить оценку сходства из двух списков в диапазоне от 0 до 1.
Пример:
book1_topics =

book2_topics =

Попробовал использовать Wordnet, но не знаю, как подсчитать оценку.
Есть...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
18 ноя 2024, 02:19
Как рассчитать процент сходства на основе слов между двумя строками

Последнее сообщение Anonymous « 09 сен 2025, 03:23
Добавлено в форуме Php

Anonymous » 09 сен 2025, 03:23 » в форуме Php

Является ли какая -либо функция в PHP, которая проверяет % сходства двух строк?
Например, у меня есть:
$string1 = Hello how are you doing ;
$string2 = hi, how are you ;

и функция ($ string1, $ string2) вернет мне true, потому что слова «как»,...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
09 сен 2025, 03:23
Как получить больше предложений слов от Hunspell с помощью pyhunspell

Последнее сообщение Anonymous « 26 окт 2023, 04:32
Добавлено в форуме Python

Anonymous » 26 окт 2023, 04:32 » в форуме Python

Я использую hunspell с оболочкой pyhunspell. Я звоню:

hunspell.suggest( Йокк ) Но это возвращает только . Я видел, что «Йорк» есть в словаре, но не возвращается. Есть ли способ вернуть более двух предложений, увеличив порог расстояния или...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
26 окт 2023, 04:32
Как рассчитать встраивание слов и предложений с помощью GPT-2?

Последнее сообщение Anonymous « 03 янв 2024, 05:26
Добавлено в форуме Python

Anonymous » 03 янв 2024, 05:26 » в форуме Python

Я работаю над программой, которая вычисляет встраивание слов и предложений с использованием GPT-2, в частности, над классом GPT2Model. Для встраивания слов я извлекаю последнее скрытое состояние outputs после пересылки input_ids, которое имеет форму...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
03 янв 2024, 05:26

Вернуться в «Python»