Я пытаюсь использовать некоторые данные ранжирования в логистической регрессии. Я хочу использовать машинное обучение, чтобы создать простой классификатор того, является ли веб-страница «хорошей» или нет. Это всего лишь обучающее упражнение, поэтому я не ожидаю хороших результатов; просто надеюсь изучить «процесс» и методы кодирования.
Я поместил свои данные в файл .csv следующим образом:
Ярлык представляет собой двоичную классификацию, обозначающую «хорошо» с 1 или «плохо» с 0.
В настоящее время мой LR работает только с веб-сайтом. текст; на котором я запускаю TF-IDF.
У меня есть два вопроса, с которыми мне нужна помощь:
Как мне нормализовать данные моего рейтинга для AlexaRank? У меня есть набор из
10 000 веб-страниц, для всех из которых у меня есть рейтинг Alexa;
однако они не имеют рейтинга 1–10 000. Их рейтинг выше
во всем Интернете, поэтому, хотя http://www.google.com может занимать первое место,
может иметь рейтинг #83904803289480. Как мне
нормализовать это в Scikit, чтобы получить наилучшие
результаты на основе моих данных?
Я провожу свою логистическую регрессию таким образом; Я почти уверен, что сделал это неправильно. Я пытаюсь выполнить TF-IDF для текста веб-сайта, затем добавить два других соответствующих столбца и подогнать логистическую регрессию. Я был бы признателен, если бы кто-нибудь мог быстро проверить, правильно ли я использую три столбца, которые хочу использовать в своем LR.
Я пытаюсь использовать некоторые данные ранжирования в логистической регрессии. Я хочу использовать машинное обучение, чтобы создать простой классификатор того, является ли веб-страница «хорошей» или нет. Это всего лишь обучающее упражнение, поэтому я не ожидаю хороших результатов; просто надеюсь изучить «процесс» и методы кодирования. Я поместил свои данные в файл .csv следующим образом: [code]URL WebsiteText AlexaRank GooglePageRank [/code] В моем тестовом CSV-файле есть: [code]URL WebsiteText AlexaRank GooglePageRank Label [/code] Ярлык представляет собой двоичную классификацию, обозначающую «хорошо» с 1 или «плохо» с 0. В настоящее время мой LR работает только с веб-сайтом. текст; на котором я запускаю TF-IDF. У меня есть два вопроса, с которыми мне нужна помощь: [list] [*]Как мне нормализовать данные моего рейтинга для AlexaRank? У меня есть набор из 10 000 веб-страниц, для всех из которых у меня есть рейтинг Alexa; однако они не имеют рейтинга 1–10 000. Их рейтинг выше во всем Интернете, поэтому, хотя http://www.google.com может занимать первое место, [code]http://www.notasite.com[/code] может иметь рейтинг #83904803289480. Как мне нормализовать это в Scikit, чтобы получить наилучшие результаты на основе моих данных?
[*] Я провожу свою логистическую регрессию таким образом; Я почти уверен, что сделал это неправильно. Я пытаюсь выполнить TF-IDF для текста веб-сайта, затем добавить два других соответствующих столбца и подогнать логистическую регрессию. Я был бы признателен, если бы кто-нибудь мог быстро проверить, правильно ли я использую три столбца, которые хочу использовать в своем LR. [code] loadData = lambda f: np.genfromtxt(open(f,'r'), delimiter=' ')
print "loading data.." traindata = list(np.array(p.read_table('train.tsv'))[:,2])#Reading WebsiteText column for TF-IDF. testdata = list(np.array(p.read_table('test.tsv'))[:,2]) y = np.array(p.read_table('train.tsv'))[:,-1] #reading label
#Add Two Integer Columns AlexaAndGoogleTrainData = list(np.array(p.read_table('train.tsv'))[2:,3])#Not sure if I am doing this correctly. Expecting it to contain AlexaRank and GooglePageRank columns. AlexaAndGoogleTestData = list(np.array(p.read_table('test.tsv'))[2:,3]) AllAlexaAndGoogleInfo = AlexaAndGoogleTestData + AlexaAndGoogleTrainData
#Add two columns to X. X = np.append(X, AllAlexaAndGoogleInfo, 1) #Think I have done this incorrectly.
print "training on full data" rd.fit(X,y) pred = rd.predict_proba(X_test)[:,1] testfile = p.read_csv('test.tsv', sep="\t", na_values=['?'], index_col=1) pred_df = p.DataFrame(pred, index=testfile.index, columns=['label']) pred_df.to_csv('benchmark.csv') print "submission file created.."` [/code]
У меня возникла серьезная проблема с производительностью при использовании нескольких распространенных методов машинного обучения в sklearn. Я работаю над проблемой двоичной классификации с набором данных, содержащим 5 миллионов наблюдений и 100...
Я искал похожие вопросы, но ни один из ответов не соответствует моей конкретной ситуации.
Я работаю с данными НФЛ, прогнозируя результаты игр. Мои исходные данные (используемые для обоих процессов ниже) состоят из примерно 3800 строк по 20 отдельных...
Я работаю с данными НФЛ и прогнозирую исходы игр. Мои исходные данные (используемые для обоих процессов ниже) состоят из примерно 3800 строк по 20 отдельных характеристик (по десять для каждой команды, плюс дата, идентификатор игры, команда хозяев и...
Я работаю над проектом с набором данных, в котором довольно много пропущенных значений — действительно много.
Вот результат работы colSums(is.na(dati_train)) , показывающий количество пропущенных значений в каждом столбце:
>...
Я работаю над проектом с набором данных, в котором довольно много пропущенных значений — действительно много.
Вот результат работы colSums(is.na(dati_train)) , показывающий количество пропущенных значений в каждом столбце:
>...