У меня есть два набора списков слов: первый я назвал поисковыми словами, а второй я назвал ключевыми словами. Моя цель — рассчитать частоту поисковых слов в пределах 10 ключевых слов. Например, предположим, что слово - acquire - находится в списке ключевых слов, тогда я буду искать слова в списке поисковых слов в пределах 10 слов из acquire. . В пределах 10 слов означают 10 слов вперед от ключевых слов и 10 слов назад от ключевых слов, что означает движение как вперед, так и назад.
Ниже приведено мое поисковое слово и ключевое слово. Списки -
text_dict = {
'ITEM7':["Last year, from AVG we have acquired Alibaba Security. This year we are in the process \
of adopting Symantec. We believe these technologies will improve our access control. \
Moreover, we also integrated data security diagnostic program.",
"We are planning to install end-point security, which will upgrade intrusion detection system."]
}
df = pd.DataFrame(text_dict)
ITEM7 Frequency
Last year, from AVG we have acquired Alibaba S... 6
We are planning to install end-point security,... 2
В первой строке df мы видим слово AVG и Alibaba Security из списка search_words и вокруг этого слова acquire, базовая форма которого — acquire — находится в списке ключевых_слов. Аналогичным образом, Symantec, Access Control, безопасность данных, диагностическая программа взяты из списка search_words, и эти слова находятся в пределах 10 слов после принятия, улучшить, интегрировать из списка ключевых_слов. Таким образом, общее количество слов для поиска составляет 6 (AVG+Alibaba Security+Symantec+Контроль доступа+Безопасность данных+Диагностическая программа). Следовательно, в столбце Частота файла df значение равно 6.
Обратите внимание, что слова в key_words имеют в основном базовую форму, поэтому их вариации (например, усыновление, принятие) также следует считать ключевыми словами.
У меня есть два набора списков слов: первый я назвал поисковыми словами, а второй я назвал ключевыми словами. Моя цель — рассчитать частоту поисковых слов в пределах 10 ключевых слов. Например, предположим, что слово - [b]acquire[/b] - находится в списке ключевых слов, тогда я буду искать слова в списке поисковых слов в пределах 10 слов из [b]acquire. [/b]. В пределах 10 слов означают 10 слов вперед от ключевых слов и 10 слов назад от ключевых слов, что означает движение как вперед, так и назад. Ниже приведено мое поисковое слово и ключевое слово. Списки - [code]search_words = ['access control', 'Acronis', 'Adaware', 'AhnLab', 'AI Max Dev Labs', 'Alibaba Security', 'anti-adware', 'anti-keylogger', 'anti-malware', 'anti-ransomware', 'anti-rootkit', 'anti-spyware', 'anti-subversion', 'anti-tamper', 'anti-virus', 'Antiy', 'Avast', 'AVG', 'Avira', 'Baidu', 'Barracuda', 'Bitdefender', 'BullGuard', 'Carbon Black', 'Check Point', 'Cheetah Mobile', 'Cisco', 'Clario', 'Comodo', 'computer security', 'CrowdStrike', 'cryptography', 'Cybereason', 'cybersecurity', 'Cylance', 'data security', 'diagnostic program', 'Elastic', 'Emsisoft', 'encryption', 'Endgame', 'end point security', 'Ensilo', 'eScan', 'ESET', 'FireEye', 'firewall', 'Fortinet', 'F-Secure', 'G Data', 'Immunet', 'information security', 'Intego', 'intrusion detection system', 'K7', 'Kaspersky', 'log management software', 'Lookout', 'MacKeeper', 'Malwarebytes', 'McAfee', 'Microsoft', 'network security', 'NOD32', 'Norton', 'Palo Alto Networks', 'Panda Security', 'PC Matic', 'PocketBits', 'Qihoo', 'Quick Heal', 'records management', 'SafeDNS', 'Saint Security', 'sandbox', 'Sangfor', 'Securion', 'security event management', 'security information and event management', 'security information management', 'SentinelOne', 'Seqrite', 'Sophos', 'SparkCognition', 'steganography', 'Symantec', 'Tencent', 'Total AV', 'Total Defense', 'Trend Micro', 'Trustport', 'Vipre', 'Webroot', 'ZoneAlarm']
key_words = ['acquire', 'adopt', 'advance', 'agree', 'boost', 'capital resource', 'capitalize', 'change', 'commitment', 'complete', 'configure', 'design', 'develop', 'enhance', 'expand', 'expenditure', 'expense', 'implement', 'improve', 'increase', 'initiate', 'install', 'integrate', 'invest', 'lease', 'modernize', 'modify', 'move', 'obtain', 'plan', 'project', 'purchase', 'replace', 'spend', 'upgrade', 'use'] [/code] Небольшой пример – [code]text_dict = { 'ITEM7':["Last year, from AVG we have acquired Alibaba Security. This year we are in the process \ of adopting Symantec. We believe these technologies will improve our access control. \ Moreover, we also integrated data security diagnostic program.", "We are planning to install end-point security, which will upgrade intrusion detection system."] }
df = pd.DataFrame(text_dict) [/code] Мой ожидаемый результат - [code] ITEM7 Frequency Last year, from AVG we have acquired Alibaba S... 6 We are planning to install end-point security,... 2 [/code] В первой строке df мы видим слово AVG и Alibaba Security из списка search_words и вокруг этого слова [b]acquire[/b], базовая форма которого — [b]acquire[/b] — находится в списке ключевых_слов. Аналогичным образом, Symantec, Access Control, безопасность данных, диагностическая программа взяты из списка search_words, и эти слова находятся в пределах 10 слов после принятия, улучшить, интегрировать из списка ключевых_слов. Таким образом, общее количество слов для поиска составляет 6 (AVG+Alibaba Security+Symantec+Контроль доступа+Безопасность данных+Диагностическая программа). Следовательно, в столбце Частота файла df значение равно 6. Обратите внимание, что слова в key_words имеют в основном базовую форму, поэтому их вариации (например, усыновление, принятие) также следует считать ключевыми словами.
У меня есть два набора списков слов: первый я назвал поисковыми словами, а второй я назвал ключевыми словами. Моя цель — рассчитать частоту поисковых слов в пределах 10 ключевых слов. Например, предположим, что слово - acquire - находится в списке...
URN Firm_Name
0 104472 R.X. Yah & Co
1 104873 Big Building Society
2 109986 St James's Society
3 114058 The Kensington Society Ltd
4 113438 MMV Oil Associates Ltd
В тексте есть несколько ключевых слов и их начальная/конечная позиция. Ключевые слова могут частично перекрываться, например. что-то -> что-то / что-то / вещь :
Я искал семантические слова, связанные с медицинскими словами..
но я получил результат, как
если входные данные — «сердце»,
я получил результаты
но мне нужны результаты типа сердечный - такие же, как у медицинских слов.
Нужны данные семантических...
Я работал на Python, чтобы рекомендовать вакансии на основе навыков врача.
Мне нужны данные о терминах, связанных с медициной.
Я искал семантические слова, связанные с медициной..
но я получил результат как
если входные данные — «сердце»
я получил...