На главную страницу сайта: www.mediasprut.ru Rambler's Top100
медиасеть журналистам германистам инфоцентр портфолио фотоальбом
главная о проекте об авторе письмо автору
добавь в 'избранное'    • рекомендуй другу

Портфолио

ИНТЕРНЕТ
В популярном изложении - история, принципы Интернета, а также алгоритмы поиска, аналитика...

октябрь 2001

Приступим к работе?

"Я не умею работать в Интернете", - эту фразу в нашей стране услышишь не часто. Ведь россияне, как известно, самый закомплексованный в мире народ. А потому те, кто еще не успел проникнуть в мир свободной информации, просто уходят от темы или пренебрежительно "фикают". Зато те, кто уже научился, крепко держа мышь дрожащей рукой, с пятого-шестого раза попадать по командам меню, открывать браузер (программу для поиска в Сети) и вгонять в краску панель поиска односложными словами типа "мама" или "рама", уже считают себя крутыми сёрферами - специалистами по поиску в Сети. Кстати, сёрфинг - это действительно труд, причем высокоинтеллектуальный, а потому в нашей стране... всерьез не принятый. Хотя, чтобы понять это, достаточно дождаться, пока оскорбленная вышеприведенными запросами умнейшая поисковая машина в конце концов "выплюнет" вам более полумиллиона страниц с разными "мамами" и с четверть миллиона всевозможных "рам"...

В будущем ситуация, естественно, изменится, ибо населенность планеты Интернет растет не по дням, а по часам, а время (особенно при поиске информации для становящихся все более оперативными СМИ) - это те же деньги.

Работа в Интернете - понятие широкое. Работают здесь специалисты, получившие, кстати, образование непосредственно в Сети или из книг, написанных теми, кто уже освоил "инет" (сленговое сокращение слова "Интернет") также самостоятельно. Специальных институтов или хотя бы факультетов у нас пока нет.

Веб-мастеры при помощи веб-дизайнеров создают "математику" сайта, одевая его в удобные и привлекательные наряды. Веб-редакторы определяют смысловую архитектонику узла, его "политику", обеспечивают корректность текстовых блоков и, что очень важно, резюмируют содержание продукта набором ключевых слов - именно по ним в том числе будет в дальнейшем производиться поиск.

Сайт-промоутеры после покупки "жилья" для сайта на серверах (мощных компьютерах с гигантским объемом места для информации) у фирм-хостеров раскручивают созданный товар. Отныне он поступает в распоряжение рядовых пользователей Сети и профессиональных сёрферов. А заодно на растерзание всяким бякам, то бишь, хакерам и крякерам. Впрочем, "диалектическое призвание" хакеров - обеспечивать прогресс в сфере производства систем информационной безопасности, крякеры же (взламыватели паролей) "нужны" информационному обществу для развития безрисковых технологий веб-маркетинга.

Более или менее систематизированное существование сайтов в инете, облегчающее поиск нужной информации, обеспечивается существованием разнообразного поискового инструментария в разных условно географических сегментах самой Сети.

По сути процесс работы в Интернете - это общение пользователя с глобальным поисковым инструментом посредством локальных программ - чаще всего Microsoft Internet Explorer и Netscape Navigator.

Глобальные инструменты поиска в Сети можно условно разделить на поисковые каталоги - суперпорталы справочного типа (directories) и поисковые системы в чистом виде (search engines). Последние называют также поисковыми машинами.

Каталоги - это, по сути, большие электронные энциклопедии, тематически структурированные и тем самым обеспечивающие возможность сужать круг поиска. При вызове в своем браузере каталога на экран выводится общий список тем, озаглавленных, например, следующим образом: "Наука и образование", "Люди и общество", "Компьютеры и Интернет", "Бизнес и коммерция", "Средства массовой информации"... Здесь, вместо того чтобы сразу загрузить в строку поиска слово "мама", мы движемся вглубь, например, по следующей схеме: люди и общество - здравоохранение - советы молодым мамам. И только там либо "перелистываем" собранные по данной теме сайты, либо вводим искомое определение в строку поиска в данном разделе. Существуют и тематические каталоги, коллекционирующие сайты лишь определенной направленности.

Поисковые же машины определяют всю паутину Сети как огромную базу данных. Здесь при вводе какого-либо термина программа выдает перечень документов, содержащих искомое определение. И чем опытнее и умнее сёрфер, чем конкретнее вводимое им определение (лучше, если это будет словосочетание), тем меньший объем результатов или перечень сайтов, содержащих введенные слова, выдаст машина. Круг сузится, но уже посредством включения в работу более сложных мыслительных процессов, нежели выбор тем и разделов.

На первый взгляд работать с каталогами значительно проще. Но здесь есть одно существенное "но". Большинство каталогов создаются путем добавления авторами своих сайтов к уже существующему списку вручную. А как быть, если крайне важная для вас информация лежит на сайте, автор которого пока не успел или просто не захотел вносить его в базу открытого вами каталога?..

Потому-то "поисковички" более популярны среди пользователей, хотя и требуют некоторых навыков. Ведь, как мы уже поняли, ввод единичного термина в поисковую строку успеха не приносит.

Поисковые системы - это огромные склады слов, постоянно пополняемые путем периодического автоматического сканирования виртуального информационного пространства и индексирования его содержания. Тут тоже существуют свои, изобретенные программистами, законы виртуальной логистики. С помощью хитроумных программ типа "пауков" и "червей" поисковые системы с разной периодичностью "ворошат" содержимое WWW-паутины, "отмечая галочкой" старые запасы, занося в память свежую "добычу" и удаляя уже не существующие или вышедшие из употребления данные.

Все это добро с указанием ссылок на "полки" - хост-серверы, сайты, отдельные страницы, строки и предложения бережно хранится в виде огромных индекс-файлов, к которым вы и обращаетесь при каждом запросе.

Чтобы определить, хороша поисковая машина или нет, нужно ее хорошенько "прощупать". Основными критериями при этом, на мой взгляд, можно считать, во-первых, охват лексической базы (все ли слова запоминаются системой, или только названия, заголовки, составные первых двух страниц текста, или вообще лишь ключевые термины, запрограммированные создателями сайтов).

Во-вторых, как часто система перепроверяет содержимое сети.

В-третьих, "понимает" ли поисковая машина морфологические особенности. В-четвертых, практичность самого интерфейса, возможность использовать дополнительные функции. Строго руководствуясь этими критериями при оценке сотен существующих поисковиков, мы отберем для себя не более двух-трех. Лично мне из русских по душе "Яndex", а из латиноинтерфейсных "Google".

* * *

Вообще говоря, деление поисковых средств на каталоги и поисковые машины весьма условное. Ведь фактически все веб-справочники снабжены поисковым модулем той или иной конфигурации, в то же время многие поисковые системы оборудованы справочными разделами. Рассмотрим российские поисковые средства. И начнем с каталогов, которые появились у нас в 1996 году.

Наиболее известные из них живы и по сей день. Это: "Rambler" - www.rambler.ru/, всецело посвященный Рунету, "Russia on the Net" - www.ru, ориентированная на иностранцев. Из "младенцев" достоин упоминания "Весь русский Интернет" - www.diamondteam.ru/catalog/.

На самом деле их значительно больше, среди них достаточно много тематических, особенно студенческих и "интернетовских", ресурсов. Что касается поисковых систем, то здесь беда юного Рунета заключалась в... невозможности создания программ, индексировавших бы кириллические шрифты. Именно поэтому в первые годы у нас создавались лишь каталоги.

Зато сейчас развернулась острая конкуренция, в которой с самого начала лидирующее положение занял "Яndex". Он появился на свет в сентябре 1997 года. По своим "сыскным способностям" "Яndex" ("языковой индекс"), "живущий" по адресу www.yandex.ru, не уступает самым крутым поисковикам Запада. К тому же он специально рассчитан на русскоязычные запросы и, например, учитывает особенности нашей лексики (при вводе "бежать" находит, соответственно, "бежал", "бежит"...), к тому же поддерживает шесть кодировок. Возможностей для интеллектуального поиска "Яndex" предлагает даже больше, чем, например, знаменитая американская "AltaVista". Он четко идентифицирует регистры написания знаков - при заданном "Госпожа" проигнорирует все склонения этого слова, написанного со строчной буквы - "госпожа". Более того, "Яndex" значительно облегчает работу использованием специальных символов.

Так, набрав в строке несколько слов, не заключив их при этом в кавычки, но разделив пробелами, мы указываем машине, что каждое из этих слов должно входить в один абзац искомого документа. Тот же самый эффект произведет употребление символа "&". Например, в результате поиска по вводным "виды журналистики" или "виды&журналистики" мы получим список документов, в которых в одних и тех же абзацах содержатся оба слова...

…Итак, ряд простейших приемов ввода ключевых слов в поисковые строки значительно оптимизирует поиск. Например, если между словами поставить запятые, поисковая машина Яndex выдаст на-гора лишь те документы, которые содержат хотя бы одно из введенных слов. Тильда "~" позволяет искать документы, содержащие в абзаце первое слово, но не содержащие второго. Например, по запросу "газета ~ журнал" будут найдены все документы, содержащие слово "газета", рядом с которым в пределах абзаца нет слова "журнал". Если же требуется осуществить поиск не в первом абзаце (по его содержанию, как правило, можно судить о том, нужный ли текст вы нашли), а по всему документу, необходимо просто удвоить соответствующий знак. Одинарные знаки-операторы "&" и "~" ищут в пределах абзаца, двойные "&&" или "~~", соответственно, - во всем документа. То есть, по запросу "газета && журнал" поисковое средство отберет все документы, содержащие оба введенных слова где бы то ни было.

В Яndex возможен уникальный в своем роде вид поиска - по заданному расстоянию. Если представить, что все слова в тексте пронумерованы, а расстояние между ними есть разница между их порядковыми номерами, то расстояние между соседними словами слева направо будет условно равно единице, справа налево - минус единице. То же самое относится и к абзацам. Если между двумя словами поставлен слэш - знак "/", за которым сразу напечатано число, значит, требуется, чтобы расстояние между ними не превышало этого числа слов. Например, задав фразу "бульварная /5 газета", мы даем машине команду найти документы, в которых содержатся оба слова, но расстояние между ними должно быть не более пяти слов и они должны находиться в одном абзаце.

Вместо одного слова в запросе можно подставить целое выражение. Но для этого его надо взять в скобки. Вводим запрос "(серьезная, желтая) /+1(пресса | газе-ты)". В итоге мы получим список документов, которые содержат любую из следующих фраз "серьезная пресса", "желтая пресса", "серьезные газеты" и "желтые газеты". Короче говоря, овладев нехитрыми приемами поиска, мы значительно сократим время работы в Интернет. Необходимо лишь помнить, что разные поисковые системах используют отличные друг от друга инструменты оптимизации поиска. Не поленитесь на их изучение, выясните эмпирическим путем, как они понимают служебные различные знаки или найдите в Интернете специаль-ные сайты, посвященные технике поиска в разных системах.

Так, например, другая русскоязычная поисковая машина - "Апорт" (http://www.aport.ru) - использует иные операторы, которые можно изучить на странице помощи по адресу: http://www.aport.ru/help.htm. Зарубежные поисковые средства принципиально мало чем отличаются от отечественных. Наиболее популярны справочники "Yahoo" (http://www.yahoo.com), Lycos (http://www.lycos.com), InfoSeek (http://www.infoseek.com). Наиболее простым и самым посещаемым в мире (около миллиона посетителей в день часто делают его недоступным) является Yahoo, предназначенный для первичного ознакомления с потенциалом глобальных сетей.

Справочник Yahoo обладает возможностью непосредственного поиска, однако его потенциал крайне ограничен и может принести результат только в случае, если осуществляется поиск весьма крупного объ-екта, имеющего свои собственные Web-страницы. Ана-логичными характеристиками обладают также электронные справочники Lycos, InfoSeek и Galaxy. Однако автор зачастую при поиске терминов и уникальных документов предпочитает работать с "Google" (www.google.com).

Различия в мощности и чисто поисковых принципах разных систем порой приводят к тому, что разные поисковые средства дают разные, порой противоречащие друг другу ответы на один и тот же запрос. Этим воспользовались разработчики поисковых орудий особого рода - так называемых метапоисковых машинах. К ним, например, относится "Meta Crawler" (http://www.metacrawler.com/), главное достоинство которого заключаются в умении рассылать вводимые в него запросы по другим системам, а затем суммировать результаты. Таким образом, пользователь, вводя поисковое предписание в MetaCrawler, фактически одновременно обращается к десятку различных поисковых систем. Этим гарантируется "объективность" полученных результатов, однако, учитывая уже упоминавшиеся различия в подходах к обработке терминов разными системами, результат может оказаться не всегда релевантным запросу.

Из российских заслуживает внимания метапоисковая система "Следопыт" позволяет перевести запрос на английский язык и обратиться сразу к 6 машинам (Alta Vista, HotBot, EuroSeek, Excite, Aport, WebCrawler). Не забывайте, что поисковый сервер - это всего лишь машина, поэтому качество информации, которую она вам предложит в ответ на запрос, целиком и полностью зависит от искусства составления самих запросов. Каталоги лучше использовать, когда требуется осуществить быстрый поиск общих тем. Поисковые машины в чистом виде используются для поиска конкретных слов.