|
Вопросы по поиску сайтов в веб-архиве интернета | |
• Что такое Web.Archive.Org |
- Web.archive.org, он же wayback machine - это архив всех (ну или почти всех) страниц интернета когда либо размещенных в интернете.
Здесь можно найти удаленные или изменённые страницы сайта, посмотреть историю изменений страницы и просматривать давно уже умершие сайты.
|
• Режим - история одной страницы или поиск всех |
- Основной режим проверки скрипта - поиск всех страниц или история только одной страницы.
Первый режим ищет все возможные страницы сайта имеющиеся в вебархиве и выводит листинг разных страниц.
Второй показывает историю только одной страницы во времени - от самой старой до самой свежей.
В последнем случае нужно скармливать скрипту полный url искомой страницы. В первом только главную или домен.
|
• Почему некоторых страниц или целых сайтов нет в архиве? |
- Архив содержит огромное количество данных, но и он не может вместить всё.
Во-первых для попадания в архив сайт должен посетить поисковый робот Webarchive,
а для этого эта сайт должен быть более-менее популярен (иметь ссылки на себя) или быть добавлен вручную.
Также многие сайты запрещают себя индексировать ВебАрхивом (в этом случае скрипт выдаст ошибку).
Чем популярнее сайт тем больше страниц в архиве, но нет гарантий что та или иная страница обязательно будет в вебархиве.
До очень глубоких или малопопулярных страниц сайта он может и не дойти.
|
| Если есть вопросы или замечания |