Защита от хакеров корпоративных сетей - страница 57



Индексация Web

Индексация Web (или, как ее еще обычно называют, спайдеринг (spidering) – движение паука по паутине) – следующий тип сбора информации. С начала 90-х годов компании типа Yahoo! WebCrawler и другие начали использовать автоматизированные программы для посещения Web-сайтов и индексации размещенных на них данных, чтобы впоследствии проиндексированные данные можно было найти с помощью поискового запроса. Это было началом бизнеса Web-порталов.

Индексация сайтов обычно выполняется различными по форме и названию программами. Их называют роботами, пауками или червяками. Хотя все они выполняют одну и ту же функцию, их безо всякой видимой причины называют по-разному. Эти программы просматривают все связи анализируемого Web-сайта и индексируют находящиеся на них данные. Индексы просмотренных данных помещаются в реляционную базу данных и связываются с поисковой машиной (машина поиска – в сети Internet инструментальные средства, предназначенные для отсеивания информации, не относящейся к теме запроса). Если пользователь во время посещения портала сформулирует поисковый запрос по ключевым словам, то ему будут предъявлены ссылки на проиндексированные Web-страницы, соответствующие его запросу.

Но что произойдет, если конфиденциальная информация Web-страниц не сохранится с соответствующими правами доступа? Поскольку данные Web-страниц архивированы, то злоумышленник может получить доступ к важной информации о сайте, а значит, он может собирать интересующие его сведения с помощью поисковой машины. Уже упоминалось о том, что эта проблема не нова. Она существовала несколько лет назад, начиная с первых поисковых машин, существует сегодня и, к сожалению, будет существовать завтра.

Эта проблема не ограничена порталами. Инструментарий типа wget может быть использован для рекурсивного извлечения всех страниц сайта. Для этого достаточно запустить программу с нужными параметрами. Посмотрите на следующий пример:


>elliptic@ellipse:~$ wget -m -x http://www.mrhal.com

>–11:27:35– http://www.mrhal.com:80/

>=> “www.mrhal.com/index.html”

>Connecting to www.mrhal.com:80... connected!

>HTTP request sent, awaiting response... 200 OK

>Length: 1,246 [text/html]

>0K -> . [100%]

>11:27:35 (243.36 KB/s) – “www.mrhal.com/index.html” saved

>[1246/1246]

>Loading robots.txt; please ignore errors.

>–11:27:35– http://www.mrhal.com:80/robots.txt

>=> “www.mrhal.com/robots.txt”

>Connecting to www.mrhal.com:80... connected!

>HTTP request sent, awaiting response... 404 Not Found

>11:27:35 ERROR 404: Not Found.

>–11:27:35– http://www.mrhal.com:80/pics/hal.jpg

>=> “www.mrhal.com/pics/hal.jpg”

>Connecting to www.mrhal.com:80... connected!

>HTTP request sent, awaiting response... 200 OK

>Length: 16,014 [image/jpeg]

>0K -> .......... ..... [100%]

>11:27:35 (1.91 MB/s) – “www.mrhal.com/pics/hal.jpg” saved

>[16014/16014]

>[…]

>FINISHED –11:27:42–

>Downloaded: 1,025,502 bytes in 44 files


В примере вывод команды wget завершен символами […] из-за большого количества файлов (44 файла), загружаемых с Web-сайта www.mrhal.com, которые были бы напечатаны в конце отчета. Команда wget была запущена с переключателями m и x. Переключатель m (переключатель зеркального сохранения информации) включает режим загрузки копии всех файлов сайта www.mrhal.com в соответствии с их ссылками. Переключатель x используется для сохранения структуры директорий сайта при его загрузке на компьютер пользователя.