Как нормализовать имена ингредиентов в наборе данных рецепта и обрабатывать существительные + существительные, используя

Как нормализовать имена ингредиентов в наборе данных рецепта и обрабатывать существительные + существительные, используя ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как нормализовать имена ингредиентов в наборе данных рецепта и обрабатывать существительные + существительные, используя

Цитата

Сообщение Anonymous » 13 мар 2025, 23:13

Я работаю над нормализацией имен ингредиентов из набора данных рецепта с использованием Python и Spacy. Моя цель состоит в том, чтобы извлечь только соответствующие ингредиенты и игнорировать измерительные единицы, фракции и другие ненужные детали. Например, если у меня есть струна, как: «5 столовых ложек, разделенное». Я хочу извлечь «масло» в качестве нормализованного ингредиента. However, i struggle to parse the string "8 cups broccoli florets" - it loses "broccoli" and outputs only "floret". Другие струны, такие как «3 чашки куриного бульона», работают нормально и вывод «куриный бульон».`def normalize_ingredient(ingredient_text):
doc = nlp(ingredient_text)

# Set of measurement units to exclude
measurement_units = {
"cup", "teaspoon", "tablespoon", "tablespoons", "gram", "ounce", "pound", "can",
"clove", "pinch", "dash", "quart", "liter", "milliliter", "gallon",
"stick", "rib", "head", "package", "inch", "piece", "fluid", "container",
"jar", "loaf", "bottle", "pack", "pint", "cube", "stalk", "slice", "bulb",
"strip", "packet", "envelope", "box", "bag", "carton", "sprig", "leaf",
"half", "purpose", "pound", "ounce", "gram", "milliliter", "liter", "gallon",
"quart", "pint", "dash", "pinch", "clove", "can", "package", "container",
"jar", "loaf", "bottle", "pack", "cube", "stalk", "bulb", "strip", "packet",
"envelope", "box", "bag", "carton", "sprig", "leaf", "fluid", "inch", "piece", "cup",
"bite", "size", "bunch", "cups","all", "sized", "chunks"
}

# Set of fractions to exclude
fractions = {'½', '¼', '¾', '⅓', '⅔', '⅛', '⅜', '⅝', '⅞', '⅙', '⅚', '®'}

# List to store relevant terms
relevant_terms = []

for token in doc:
# Skip numbers, fractions, and measurement units
if (token.like_num or
token.text in fractions or
token.lemma_.lower() in measurement_units):
continue

# Focus on nouns, proper nouns, and adjectives that modify nouns
if token.pos_ in {"NOUN", "PROPN", "ADJ"}:
if token.pos_ == "ADJ" and token.head.pos_ in {"NOUN", "PROPN"}:
relevant_terms.append(token.lemma_.lower())
elif token.pos_ in {"NOUN", "PROPN"}:
relevant_terms.append(token.lemma_.lower())

return " ".join(relevant_terms)`
< /code>
Это пропускает «брокколи» по неизвестным для меня причинах (это единственная и единственная неправильно разборная строка на данный момент).
Я также попробовал этот подход с соединениями: < /strong> < /p>
`if token.pos_ in {"NOUN", "PROPN", "ADJ"}:

if token.pos_ == "ADJ" and token.head.pos_ in {"NOUN", "PROPN"}:
relevant_terms.append(f"{token.lemma_.lower()} {token.head.lemma_.lower()}")
elif token.pos_ in {"NOUN", "PROPN"}:
compound = [t for t in token.children if t.dep_ == "compound"]
if compound:
combined = " ".join([t.lemma_.lower() for t in compound] + [token.lemma_.lower()])
relevant_terms.append(combined)
else:
relevant_terms.append(token.lemma_.lower())`

Это испортило всю логику и не исключило некоторых измерений. if token.pos_ in {"NOUN", "PROPN", "ADJ"} or token.lemma_.lower() == "broccoli":
if token.pos_ == "ADJ" and token.head.pos_ in {"NOUN", "PROPN"}:
relevant_terms.append(token.lemma_.lower())
elif token.pos_ in {"NOUN", "PROPN"} or token.lemma_.lower() == "broccoli":
relevant_terms.append(token.lemma_.lower())

Подробнее здесь: https://stackoverflow.com/questions/795 ... n-noun-cas

1741896783

Anonymous

 Я работаю над нормализацией имен ингредиентов из набора данных рецепта с использованием Python и Spacy. Моя цель состоит в том, чтобы извлечь только соответствующие ингредиенты и игнорировать измерительные единицы, фракции и другие ненужные детали. Например, если у меня есть струна, как: «5 столовых ложек, разделенное». Я хочу извлечь «масло» в качестве нормализованного ингредиента. However, i struggle to parse the string "8 cups broccoli florets" - it loses "broccoli" and outputs only "floret". Другие струны, такие как «3 чашки куриного бульона», работают нормально и вывод «куриный бульон».`def normalize_ingredient(ingredient_text):
doc = nlp(ingredient_text)

# Set of measurement units to exclude
measurement_units = {
"cup", "teaspoon", "tablespoon", "tablespoons", "gram", "ounce", "pound", "can",
"clove", "pinch", "dash", "quart", "liter", "milliliter", "gallon",
"stick", "rib", "head", "package", "inch", "piece", "fluid", "container",
"jar", "loaf", "bottle", "pack", "pint", "cube", "stalk", "slice", "bulb",
"strip", "packet", "envelope", "box", "bag", "carton", "sprig", "leaf",
"half", "purpose", "pound", "ounce", "gram", "milliliter", "liter", "gallon",
"quart", "pint", "dash", "pinch", "clove", "can", "package", "container",
"jar", "loaf", "bottle", "pack", "cube", "stalk", "bulb", "strip", "packet",
"envelope", "box", "bag", "carton", "sprig", "leaf", "fluid", "inch", "piece", "cup",
"bite", "size", "bunch", "cups","all", "sized", "chunks"
}

# Set of fractions to exclude
fractions = {'½', '¼', '¾', '⅓', '⅔', '⅛', '⅜', '⅝', '⅞', '⅙', '⅚', '®'}

# List to store relevant terms
relevant_terms = []

for token in doc:
# Skip numbers, fractions, and measurement units
if (token.like_num or
token.text in fractions or
token.lemma_.lower() in measurement_units):
continue

# Focus on nouns, proper nouns, and adjectives that modify nouns
if token.pos_ in {"NOUN", "PROPN", "ADJ"}:
if token.pos_ == "ADJ" and token.head.pos_ in {"NOUN", "PROPN"}:
relevant_terms.append(token.lemma_.lower())
elif token.pos_ in {"NOUN", "PROPN"}:
relevant_terms.append(token.lemma_.lower())

return " ".join(relevant_terms)`
< /code>
 Это пропускает «брокколи» по неизвестным для меня причинах (это единственная и единственная неправильно разборная строка на данный момент).
Я также попробовал этот подход с соединениями: < /strong> < /p>
`if token.pos_ in {"NOUN", "PROPN", "ADJ"}:

if token.pos_ == "ADJ" and token.head.pos_ in {"NOUN", "PROPN"}:
relevant_terms.append(f"{token.lemma_.lower()} {token.head.lemma_.lower()}")
elif token.pos_ in {"NOUN", "PROPN"}:
compound = [t for t in token.children if t.dep_ == "compound"]
if compound:
combined = " ".join([t.lemma_.lower() for t in compound] + [token.lemma_.lower()])
relevant_terms.append(combined)
else:
relevant_terms.append(token.lemma_.lower())`

 Это испортило всю логику и не исключило некоторых измерений.        if token.pos_ in {"NOUN", "PROPN", "ADJ"} or token.lemma_.lower() == "broccoli":
if token.pos_ == "ADJ" and token.head.pos_ in {"NOUN", "PROPN"}:
relevant_terms.append(token.lemma_.lower())
elif token.pos_ in {"NOUN", "PROPN"} or token.lemma_.lower() == "broccoli":
relevant_terms.append(token.lemma_.lower())
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79507530/how-to-normalize-ingredient-names-in-a-recipe-dataset-and-handle-noun-noun-cas[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

РЕДАКТИРОВАТЬ: Формула Excel (или Python) для рекурсивного перечисления всех ингредиентов и субингредиентов рецепта.

Последнее сообщение Anonymous « 24 июл 2024, 17:16
Добавлено в форуме Python

Anonymous » 24 июл 2024, 17:16 » в форуме Python

РЕДАКТИРОВАТЬ: Проблема уже решена элегантно, можно сказать, с использованием рекурсивной лямбды. Однако с тех пор, как Python стал доступен в Excel, я начал изучать Python и посещать курсы. Тем не менее, для этой конкретной проблемы я в настоящее...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
24 июл 2024, 17:16
Почему в моих результатах отображаются местоположения, а не названия ингредиентов? [дубликат]

Последнее сообщение Гость « 09 мар 2024, 12:25
Добавлено в форуме JAVA

Гость » 09 мар 2024, 12:25 » в форуме JAVA

class Burger extends Food { private int numberofPatty; public Burger(){ } public Burger(String name, String[] ingredients, double price,float calories, int numberofPatty){ super(name,ingredients,price,calories); this.numberofPatty= numberofPatty; }...

0 Ответы

23 Просмотры

Последнее сообщение Гость
09 мар 2024, 12:25
Перечислите все доступные имена наборов данных, содержащиеся в наборе данных наборов данных Hugginface.

Последнее сообщение Anonymous « 11 окт 2024, 19:56
Добавлено в форуме Python

Anonymous » 11 окт 2024, 19:56 » в форуме Python

Я хочу знать, какие наборы данных включены, например. эта коллекция наборов данных Huggingface:

m4_daily и weatherbench_daily упоминаются явно, но их должно быть больше .
Меня не интересует список всех таких коллекций.
Я получаю список через...

0 Ответы

36 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 19:56
Нормализовать имена каталогов в C#

Последнее сообщение Anonymous « 14 апр 2025, 22:08
Добавлено в форуме C#

Anonymous » 14 апр 2025, 22:08 » в форуме C#

Вот проблема, у меня есть куча каталогов, таких как

s: \ hello \ hi

s: \ hello2 \ hi \ helloagain

на системе файлов. />
s: \ hello \ hi

s: \ hello2 \ hi \ helloagain

Есть ли какая -либо функция в c#, которая даст мне имя файловой...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
14 апр 2025, 22:08
Как использовать CamelCase с немецкими словами (или с любым другим языком, поддерживающим составные существительные)?

Последнее сообщение Anonymous « 02 авг 2024, 20:51
Добавлено в форуме C#

Anonymous » 02 авг 2024, 20:51 » в форуме C#

Отказ от ответственности: не стесняйтесь закрыть это как «слишком локализованное», если считаете, что оно не подходит для StackOverflow. Поскольку здесь довольно большое немецкоязычное сообщество, я решил попробовать.

CamelCase часто используется в...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
02 авг 2024, 20:51

Вернуться в «Python»