Защита от хакеров корпоративных сетей - страница 57
Индексация Web (или, как ее еще обычно называют, спайдеринг (spidering) – движение паука по паутине) – следующий тип сбора информации. С начала 90-х годов компании типа Yahoo! WebCrawler и другие начали использовать автоматизированные программы для посещения Web-сайтов и индексации размещенных на них данных, чтобы впоследствии проиндексированные данные можно было найти с помощью поискового запроса. Это было началом бизнеса Web-порталов.
Индексация сайтов обычно выполняется различными по форме и названию программами. Их называют роботами, пауками или червяками. Хотя все они выполняют одну и ту же функцию, их безо всякой видимой причины называют по-разному. Эти программы просматривают все связи анализируемого Web-сайта и индексируют находящиеся на них данные. Индексы просмотренных данных помещаются в реляционную базу данных и связываются с поисковой машиной (машина поиска – в сети Internet инструментальные средства, предназначенные для отсеивания информации, не относящейся к теме запроса). Если пользователь во время посещения портала сформулирует поисковый запрос по ключевым словам, то ему будут предъявлены ссылки на проиндексированные Web-страницы, соответствующие его запросу.
Но что произойдет, если конфиденциальная информация Web-страниц не сохранится с соответствующими правами доступа? Поскольку данные Web-страниц архивированы, то злоумышленник может получить доступ к важной информации о сайте, а значит, он может собирать интересующие его сведения с помощью поисковой машины. Уже упоминалось о том, что эта проблема не нова. Она существовала несколько лет назад, начиная с первых поисковых машин, существует сегодня и, к сожалению, будет существовать завтра.
Эта проблема не ограничена порталами. Инструментарий типа wget может быть использован для рекурсивного извлечения всех страниц сайта. Для этого достаточно запустить программу с нужными параметрами. Посмотрите на следующий пример:
>elliptic@ellipse:~$ wget -m -x http://www.mrhal.com
>–11:27:35– http://www.mrhal.com:80/
>=> “www.mrhal.com/index.html”
>Connecting to www.mrhal.com:80... connected!
>HTTP request sent, awaiting response... 200 OK
>Length: 1,246 [text/html]
>0K -> . [100%]
>11:27:35 (243.36 KB/s) – “www.mrhal.com/index.html” saved
>[1246/1246]
>Loading robots.txt; please ignore errors.
>–11:27:35– http://www.mrhal.com:80/robots.txt
>=> “www.mrhal.com/robots.txt”
>Connecting to www.mrhal.com:80... connected!
>HTTP request sent, awaiting response... 404 Not Found
>11:27:35 ERROR 404: Not Found.
>–11:27:35– http://www.mrhal.com:80/pics/hal.jpg
>=> “www.mrhal.com/pics/hal.jpg”
>Connecting to www.mrhal.com:80... connected!
>HTTP request sent, awaiting response... 200 OK
>Length: 16,014 [image/jpeg]
>0K -> .......... ..... [100%]
>11:27:35 (1.91 MB/s) – “www.mrhal.com/pics/hal.jpg” saved
>[16014/16014]
>[…]
>FINISHED –11:27:42–
>Downloaded: 1,025,502 bytes in 44 files
В примере вывод команды wget завершен символами […] из-за большого количества файлов (44 файла), загружаемых с Web-сайта www.mrhal.com, которые были бы напечатаны в конце отчета. Команда wget была запущена с переключателями m и x. Переключатель m (переключатель зеркального сохранения информации) включает режим загрузки копии всех файлов сайта www.mrhal.com в соответствии с их ссылками. Переключатель x используется для сохранения структуры директорий сайта при его загрузке на компьютер пользователя.