Символы с акцентом в запрещенном списке Presidio не распознаются, несмотря на правильную кодировку YAMLPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Символы с акцентом в запрещенном списке Presidio не распознаются, несмотря на правильную кодировку YAML

Сообщение Anonymous »

Я использую Microsoft Presidio для анализа и анонимизации текста, и у меня есть файл конфигурации (all-config.yml) для указания распознавателей, включая некоторые списки запретов с диакритическими символами. Однако я столкнулся с проблемой, когда слова с акцентом в списке запретов не сопоставляются с текстом, несмотря на то, что файл YAML сохранен в кодировке UTF-8.
Вот пример. моей настройки:
from presidio_analyzer import AnalyzerEngineProvider
from presidio_anonymizer import AnonymizerEngine

FR_TEXT = """Nom complet : Jean Dupont
Préférence sexuelle : Jean s'identifie comme hétérosexuel"""

analyzer_conf_file = "path/to/all-config.yml"

provider = AnalyzerEngineProvider(analyzer_engine_conf_file=analyzer_conf_file)
analyzer = provider.create_engine()

analyzer_results = analyzer.analyze(text=FR_TEXT, language="fr")
anonymizer = AnonymizerEngine()
result = anonymizer.anonymize(text=FR_TEXT, analyzer_results=analyzer_results)

print(result.text)

Конфигурация YAML (all-config.yml):
supported_languages:
- en
- fr
- nl

default_score_threshold: 0

nlp_configuration:
nlp_engine_name: spacy
models:
-
lang_code: en
model_name: en_core_web_lg
-
lang_code: fr
model_name: fr_core_news_lg
-
lang_code: nl
model_name: nl_core_news_lg

recognizer_registry:
global_regex_flags: 26

recognizers:
- name: "SexualityFr"
supported_language: "fr"
supported_entity: "SEXUALITY"
deny_list: [hétérosexuel]
deny_list_score: 1

Ожидаемый результат:
The word "hétérosexuel" should be anonymized, but it is not being recognized.


Подробнее здесь: https://stackoverflow.com/questions/790 ... -correct-y
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»