Я хотел бы знать, как очистить содержимое исходного кода с веб-сайта с помощью PHP. Я пробовал использовать
http://simplehtmldom.sourceforge.net/, а также посмотрел, как вы анализируете и обрабатываете HTML/XML в PHP? Мне все еще трудно получить информацию из исходного кода. Как видите, на главной странице исходного кода содержится список ссылок автора, включающий год и количество написанных книг.
Код: Выделить всё
[list]
[url=http://www.books.com/john-smith/index.html]John Smith (2011-2012)[/url] : 11 books
[url=http://www.books.com/bobby-bob/index.html]Bobby Bob (2011-2012)[/url] : 89 books
....
[/list]
Я нажимаю на Джона Смита, и открывается список книг, написанных Джоном Смитом.
Код: Выделить всё
John Smith (11 Books)
[list]
[url=http://www.books.com/john-smith/best-book.html]Best Book[/url]
[url=http://www.books.com/john-smith/other-best-book.html]Other Best Book[/url]
....
[/list]
Я нажимаю на одну из книг «лучшая книга», и появляется название книги, ее автор и вся история книги.
Код: Выделить всё
Book : Best Book
Aurther : John Smith
story of the best book......
.......
....
the end
Я хотел бы иметь возможность получить все имя автора, его год, список книг и содержание книги. Фактически как набор данных. Я хотел бы создать базу данных с информацией обо всех именах авторов, году их жизни, созданных ими книгах, названии книг, категории, содержании книг и т. д.
Подробнее здесь:
https://stackoverflow.com/questions/788 ... ource-page