Поиск информации в Интернете — новые специальности

(Рассказ в примерах)

В.Н. Романенко, Г.В. Никитина

Надо не просто знать, а уметь анализировать знание.
Георгий Сатаров

О чём будет идти речь

С электронным научным семинаром — ЭНС мы познакомились сравнительно недавно. Его политематичность очень привлекательна, хотя далеко не все затрагиваемые участниками вопросы имеют одинаковый интерес. В результате, мы довольно быстро стали активными выступать и часто вынужденно сдерживаем себя от слишком частых выступлений. Руководитель семинара в частной переписке несколько раз предлагал нам отвлечься от дискуссий и более подробно познакомить посетителей сайта ЭНС с теми вопросами, которыми мы постоянно занимаемся. Этой весной, после входа в свет нашей монографии Общие технологии, этот вопрос встал заново. По поводу технологий дело пока что приходится отложить, а вот по поводу методов и приёмов поиска различной, в том числе и научной информации в Интернете, возникла возможность поговорить. Тема эта очень специальная и на первый взгляд не очень понятная. Лучше всего её осветить на основе конкретных примеров. Это мы и пытаемся здесь сделать. Угадать увлечёт или нет это читателя мы, конечно, не можем.
О влиянии новых электронных средств работы с информацией на гуманитарные науки сказано немало. Мы пытались отразить это ещё в 2006 году в небольшом издании: Влияние информатики на гуманитарные области знания. Попытка предварительного анализа — СПб.: 2006. 35 с. (Этот материал можно найти в Интернете и на нашем персональном сайте: http://moikariver.ru ). С тех пор очень многое изменилось и поиск информации в Интернете постепенно стал входить в повседневную практику. Появились новые специальности, такие как Интернет-журналистика (Такой курс читается, например в МГУ). В США появилась специальность и особый термин cybrarian. Это слово составлено из двух: cybernetics и librarian (библиотекарь). Этот термин имеется в словарях современного английского языка. Он обозначает библиотечного работника, освоившего и использующего методику Интернет-поиска. Такие работники ныне активно привлекаются к учебному процессу. Так, в ряде университетов США подобный сотрудник библиотеки с самого начала прикрепляется к студентам. Вместе с ними он ищет литературу по заданным темам, по дороге обучая студента необходимому минимуму поисковых знаний. В России появилось большое количество литературы по поиску информации в сети. Мы лично разработали и читаем специальные курсы, в частности Интернет в книгоиздании, Интернет в экономике и т. д. Слайд-фильм с конспектом этих лекций и ссылки на книги, в том числе и на наши, можно при желании найти как на нашем персональном сайте, так и на сайте Северо-Западного отделения АИО http://akadionw.spb.ru (В настоящий момент сайт находится в состоянии реконструкции).
Мы приводим снимок обложки 2-го издания американской книги C.A. Lane. Её название, которое можно перевести как Обнажённость в Интернете говорит о том, что каждый человек и каждая организация пользуясь Интернетом поневоле оставляет следы. Из них вполне законными путями можно извлечь много интересной и полезной информации. В России имеются ссылки на эту книгу и переводы ряда мест из неё. В официальных российских электронных каталогах наличие этой книги отражено в единственном месте — на сайте РГБ (бывшая библиотека им. Ленина). Снимок сделан с обложки нашего личного экземпляра, подаренного зарубежными друзьями. Эта книга интересна, однако, не своим содержанием, т. к. соответствующие идеи и приёмы нашли своё отражение и в

российской литературе. Интересно здесь иное. Общий объем книги 585 страниц. Основному содержанию посвящены первые 344 страницы. Начиная с 345 страницы идёт перечень адресов американских фирм, которые оказывают услуги по поиску разнообразной информации в Интернете. Это три столбца на каждой странице, которые дают описание в среднем 12 фирм, занимающихся эти бизнесом. Как видим, поиск в Интернете — это новая активно развивающаяся сфера деятельности. Она требует определённой подготовки. Задачи такого поиска разнообразны. Поэтому универсальных специалистов этого плана нет. Мы лично занимаемся, в основном, только поиском научной информации и рядом смежных проблем. Кстати, этот вид деятельности в книге Lane вообще не отражён. Сразу оговоримся — поиском на коммерческой основе мы не занимаемся. В то же время в ряде случаев услуги своим друзьям и знакомым оказываем. Вопрос о создании специализированной фирмы, которая бы этим занималась, всё время стоит на повестке дня. Однако в нашем возрасте тратить время на подбор и подготовку специалистов не очень рационально. Отметим ещё, что ряд библиотек, в частности наша Петербургская РНБ (Публичная библиотека) стали оказывать услуги этого плана. Однако, в хорошо оформленную деятельность это пока не вылилось. Заметим ещё, что в разных странах ситуация с поиском сетевой информации очень и очень разная.
Опыт показывает, что о том, как осуществляется поиск информации в электронных сетях, большинство людей знает плохо или же не знает совсем. Именно это обстоятельство и объясняет появление данного материала. Как и в случае с вождением машины, некое теоретическое ядро здесь нужно. В то же время основные навыки отрабатываются только на практике. Сам поиск во многом является неким искусством. Это означает, что его результаты не всегда предсказуемы и очень зависят от личных качеств того, кого можно назвать специалистом по поиску. Понять приёмы поиска по этим причинам лучше всего на примерах. За последние несколько лет мы собрали вместе много поисковых задач, которые выполняются во время обучения нашими студентами. Мы непрерывно пытаемся пополнить список этих задач. Как и всегда в аналогичных ситуациях, это привело к тому, что психологи называют профессиональной деформацией личности. У нас появилась привычка встречаясь с новой работой или автором быстро проверить в сети персональные данные и другие сведения. Именно этим можно объяснить нашу активную рефлексивность на семинаре — мы привыкли проверять в сети многие публикуемые сведения. Увы, этого избежать при нашей профессии невозможно.
Учитывая вышесказанное станет понятен и стиль этой публикации — мы рассказываем о поисковой деятельности на примере решения реальных задач. Это затрагивает описание и чужих, и собственных ошибок. Именно по этой причине мы приводим не очень много примеров и, если нельзя скрыть источник от которого мы отталкиваемся, то мы пытаемся делать это с предельной осторожностью, чтобы не затронуть личные чувства. Заранее приносим извинения за те промахи, которые у нас могут при этом возникнуть.

Несколько слов об истории информационного поиска

Начало систематического сбора различной информации принято связывать с военно-политическим шпионажем. Соответствующие рассказы часто начинают с описания возникновения специализированных органов военной разведки в Пруссии и во Франции во второй половине XIX века. При этом часто рассказывают о «короле шпионажа» Вильгельме Штибере. Его деятельность во многом обеспечила блестящий успех Пруссии в войне с Австрией в 1866 году. Велика его роль и в событиях Франко-Прусской войны 1870-71 годов. Конечно информацию и не только военную собирали и раньше. Однако упомянутые только что события во многом определили новое отношение к важности и ценности сбора информации.
Для нас интересно обратить внимание на другое. После Берлинского Конгресса Российская империя стала искать союзника в лице Франции. Франция пошла на этот союз, но не все свои военные секреты свободно передавала. Одним из таких секретов было производство, точнее состав, бездымного пороха. Его состав и технология создания продукта в России были найдены Д.И. Менделеевым после его поездки в Европу в 1890 году. Существует не вполне достоверная легенда о том, что толчком к определению состава этого пороха послужил анализ грузовых потоков к французскому заводу по его производству. В этой легенде утверждается, что по просьбе Менделеева ему дали сведения о числе грузовых поездов, подходивших ежедневно заводу, количестве вагонов в них и местах отправления. Это якобы позволило определить состав пороха, а дальнейшее превращение этих данных в конкретную технологию было «делом техники». Вне зависимости от того, реальны ли были эти события, сам факт появления такой легенды говорит о возникновении в этот период понимания важности аналитической обработки абсолютно доступной и практически не секретной информации. Имеется множество примеров больших и малых достижений, полученных аналитиками на этом пути. Это не только военные и политические, но и экономические сведения. Иными словами роль информации, необходимость умений находить и анализировать её, уже давно не вызывает сомнений.
В 1968 году вышло в свет второе издание книги А.И. Михайлов, А.И. Чёрный, В.С. Гиляревский Основы информатики — М.: «Наука» 1968. 760 с. Позволим себе напомнить, что в те годы термин информатика понимался более широко, чем сейчас. Поэтому, хотя в книге шла речь и об ЭВМ, основное её содержание было посвящено общим принципам работы с информацией и методам её обработки и поиска. Чтобы отделить это от современного, связанного только с вычислительной техникой понимания, можно говорить о том, что эта книга посвящена безмашинной информатике. В начальной части этой книги приводится много замечательных примеров, отражающих важность умения отыскать и проанализировать имеющуюся информацию. Приведём один из этих примеров. В хрущёвские времена, когда встал вопрос о строительстве Северо-Крымского оросительного канала, были проведены широкие изыскательские работы. Нетрудно понять, что их выполнение потребовало больших средств. Когда работы уже приближались к концу неожиданно выяснилось, что вопрос об оросительных системах в Крыму возникал ещё во времена Николая I. Тогда же были выполнены все изыскания. Отчёт о них спокойно пылился в каких-то архивах. В общем, большие средства были напрасно затрачены на повторение уже сделанного и известного. В цитируемой книге указывалось и на другое. Поиск информации требует не только умений, но и средств. В книге приводятся финансовые оценки того времени. Они говорят о том, что если исследование не очень дорогое — по ценам того времени пара тысяч долларов, то оказывается дешевле выполнить его заново, чем искать нужную информацию.
С появлением Интернета и других современных средств обработки и хранения информации, количество обращающейся в мире информации, потребности в ней и методы её обработки и поиска резко изменились. Качественный скачок в этой области привёл, как обычно, к разделению труда в сфере работы с информацией. Это привело к появлению новых поисковых специальностей, о методах использования которых и идёт речь в данной публикации. Сразу отметим, что речь идёт о поиске информации в обычной жизни и только законными методами. Большинство этих методов имеют глубокую историю, которую мы затрагивать не будем. По типу поисковых задач можно выделить три типа поиска: бытовой, профессионально-ориентированный и утончённый (В.Н. Романенко, Г.В. Никитина, В.С. Неверов Работа в Интернете. От бытового до профессионального поиска — СПб.: «Профессия». 2008. 416 с.) Эта книга ещё продаётся и поэтому в сеть не выкладывалась. Бытовой поиск решает наши повседневные задачи: выбор стиральной машины, поиск адресов, составление маршрутов и т. д. Профессионально-ориентированный поиск — это решение чисто профессиональных задач: логистика, редактирование и т. п. вещи. Наконец утончённый поиск — это сложные исследования, основанные на привлечении Интернета и его методов. Этот вид поиска разработан ещё слабо, и широким массам о нём почти ничего не известно. Однако, с его помощью решаются многие интересны задачи. После этих уведомлений позволим себе перейти к примерам.

Пример определения достоверности информации и поиска её первоисточника — случай профессионально-ориентированного поиска

Мы начнём наш рассказ о методах поисковой работы с примера, который детально описывает все действия. Далее к такому подробному описанию мы прибегать уже не будем. Чтобы было понятнее, мы оттолкнёмся от одного выступления на ЭНС. При этом саму суть выступления мы затрагивать не будем. Мы будем говорить только о методах проверки информации, необходимой, в частности, в повседневной работе редактора. Как уже говорилось, ведя занятия о курсу Интернет и книгоиздание мы, как ныне принято говорить, «заточены» на поиск примеров для таких учебных задач и обновления лекционного курса.
Где-то 5 или 6 июня нынешнего 2011 года мы получили электронное сообщение от коллеги, который живёт на Урале. Наши постоянные контакты связаны с исследованиями по т.н. синергетической теории информации. Наш коллега сообщал, что в зоне Рунета появился новый сайт, посвящённый теории информации. Материалы на этом сайте характеризуются высоким качеством. Однако, сайт этот анонимен и все возможные контакты и другие варианты связи с читателями надёжно заблокированы. Это было странно. Естественно основные учёные работающие в России в этой области нам хорошо известны. Уровень материалов позволял говорить о том, что только двое или трое из них способны так высококачественно изложить, и скомпоновать материалы. Зачем им это делать было непонятно. Короче возник не очень важный вопрос, связанный скорее с любопытством — кто и зачем это сделал? Ответ мы искали между делом, то есть в перерывах основной работы. Метод поиска был очевиден. Выбирались характерные фразы в различных местах текста. Эти фразы вводились в поисковое окно информационно-поисковой системы — ИПС Яндекс. Достоинством этой системы является наличие поискового оператора кавычки « ****». Текст в кавычках ищется как точная фраза. Если в Рунете имеется текст с такой фразой, то он обязательно отыскивается. Задача сводится к выбору наиболее характерных фраз текста и определению их оптимальной длины. Довольно быстро отпали все лица, кроме одного известного учёного в ряде книг и статей которого встречались некоторые, но далеко не все выбранные нами фразы. Эти фразы нашлись и в автореферате одной диссертации. Не станем описывать детали. Скажем только, что удалось выяснить то, что исследовавшийся сайт построен из кусков текста взятых у нескольких авторов. Вероятно по этой причине он и сделан анонимным. В общем, ничего особо интересного. Рутинная поисковая задача, потребовавшая, тем не менее, нескольких часов работы. Мы бы об этом и не говорили, если бы эта работа не настроила нас на поиск первоисточников. Мы кончили с этим делом вечером 7 июня. Оно бы и забылось далее. Однако утром 8 июня на сайте ЭНС появился материал: Горбатов Дмитрий, музыкант, Россия. Рихард Вагнер и другие. Этот материал мы бегло просмотрели. Большого интереса он у нас не вызвал. Только потом мы вспомнили, что в связи с одним из выступлений по поводу Ноткина мы уже встречались с этим материалом на сайте издаваемого в США Независимого альманаха «Лебедь» — http://www.lebed.com . Там этот материал появился и обсуждался без малого десять лет тому назад. Мы бы к этому выступлению и не вернулись, если бы не один небольшой абзац в тексте Д. Горбатова. Приводим его:

2. «Подобное же мнение разделял и Томас Манн, характеризуя Вагнера как “саксонского гнома [рост Вагнера был 152 сантиметра. – Е. Л.] с феноменальным талантом и ничтожным характером”».
Это не так уж важно – но всё же: откуда госпоже Лопушанской известен рост Вагнера? Она явно пользовалась каким-то своим источником, на который не даёт ссылку. Мой источник сообщает иное: «рост Рихарда Вагнера – 166 сантиметров». Во-первых, при росте заведомо ниже 1,7 метра расхождение в 14 сантиметров, т. е. более 8%, довольно существенно. Во-вторых, 150 лет назад европеец ростом в 12/3 метра никак не мог считаться ? «гномом»: это уж точно! В-третьих, очень хотелось бы знать: что это за цитата из Томаса Манна? Откуда она взята? И кто перевёл её на русский язык?
Собственно говоря всякие рассуждения о правилах цитирования, надёжности источников и прочее в выступлении Д. Горбатова достаточно тенденциозны. То, что он называет мой источник — это абсолютно ненадёжные вторичные сведения. Короче говоря, мы споткнулись о выделенную цветом фразу. Возможно, если бы в предыдущий день мы не занимались поиском источника текстов, то мы бы на это и не обратили внимания. А тут хорошая задача для студентов — проверить откуда же эта цитата, правильно ли она переведена и т.п. вещи, столь важные в издательском деле. Почему этого не сделал Д. Горабатов достаточно ясно. Данный вопрос вскользь затрагивался в дискуссии на форуме альманаха «Лебедь» и интереса не представлял. В общем, мы решили отыскать первоисточник. Далее рассказывается, как это было сделано. Мы полагаем, что этот рассказ полезен для понимания методов и возможностей поисковой работы в Интернете. Ну, а дополнительные выводы полученные при этом тоже интересны, так как они показывают то, сколь много интересного и нового можно выяснить в простых поисковых задачах, заполняющих повседневную жизнь многих людей связанных с книгоизданием и журналистикой.
Даём пошаговое описание поиска. Итак есть цитата — часть текста. Откуда она взята и точен ли перевод? Вот эту цитату и вводим в поисковые окна. Это называется полнотекстовый поиск. Выбираем две ИПС: Яндекс и Google. Это наиболее удобные для работы ИПС из т.н. русскоязычной Большой пятёрки. Они ищут немного по-разному. Поэтому их результаты в сложных случаях хорошо дополняют друг друга. Поисковые операторы в Google глубоко запрятаны. Поэтому Google, как и ИПС Яндекс, если слова в Яндекс вводить без кавычек, ищет сведения о тех ресурсах, в которых встречаются все или часть указанных в запросе слов. Эти слова могут встречаться в произвольном порядке и при разных расстояниях между ними. Такой, самый простой, поиск очень удобен на начальных стадиях. Далее, конечно, ищем и вводя цитату в ИПС Яндекс в кавычках, то есть отыскивая её как фразу. Если этого ограничения не накладывать, то количество выпадающих ресурсов огромно. В них речь идёт о гномах и разного рода другой нечисти, встречающейся в Nibelungenlied. Речь в найденных на первом этапе ресурсах идёт и о другом. Чтение такого материала позволяет многое уяснить в вопросе о тексте этой цитаты. Сам же точный текст, кроме работы Д. Горбатова, встречается только один раз. Но это не исходный текст того сборного материала, о котором идёт речь у Д. Горбатова. Это книга Марины Раку: Вагнер. Путеводитель + CD — М.: Изд. «Классика XXI». 2007. 320 с . Цитата, как и у
Е. Лопушанской даётся без указания источника. Однако, она вынесена на суперобложку книги. Это значит, что Марина Раку, как и Е. Лопушанская, считает её хорошо известной. В квалификации автора этой книги сомневаться не приходится. Таким образом текст явно существует. Он считается хорошо известным, но всё-таки просто так не отыскивается. Не размениваясь на детали, скажем, что, хотя мы и занимались этим поиском в перерывах между основными занятиями, потратили мы на это дело что-то около двух часов. В общем, для такой задачи это безумно много.
К вечеру, когда мы смогли сосредоточиться на поиске, стало ясно, что продолжать его, читая все многочисленные переведённые на русский язык материалы Томаса Манна, посвящённые Вагнеру, бессмысленно. Надо было изменить подход. Мы об этом пишем, так как правильная тактика поиска состоит в непрерывных уточнениях задачи на основе предварительно полученных результатов. Это называется рафинирование поиска. Если этого не делать, то хороших результатов быстро никогда не достичь. Беглая оценка проделанной работы сразу подсказывала, что поиск делается неверно. Наша ошибка была в том, что на основе приведённого выше отрывка из материала Д. Горбатова мы искали то, чего на самом деле нет. Нет, мы не говорим, что Елена Лопушанская и Марина Раку, что-то придумали сами и, возможно, списали фразу друг у друга. Мы говорим лишь о том, что в Рунете нет проиндексированного текста, из которого взята упомянутая цитата. Возможны два варианта. В первом из них текст, который ищется находится в зоне невидимого (скрытого, deep, invisible) ВЭБа. Те, кто много ищет в Интернете прекрасно знают, что многие миллионы ресурсов, индексируемые различными ИПС, в лучшем случае составляют не более 10% от общего числа ресурсов, имеющихся в сети. Они сосредоточенных в разных базах данных — БД. Причины здесь бывают разные. Искать ресурсы в скрытом ВЭБе можно. Однако, это уже намного более сложная задача. Её успех не гарантирован. Второй вариант объяснения нашей начальной неудачи более прост и естественен. Скорее всего, исходный текст заведомо существует. Однако, он никогда на русский язык не переводился. Иными словами, и Е.Лопушанская и М. Раку перевели этот кусочек сами. Остаётся только удивиться, почему это естественное соображение не пришло в голову Д. Горбатову.
Итак, поисковая задача переформулируется. Теперь она звучит так: найти источник цитаты на языке автора, то есть на немецком языке. Мы это поняли поздно вечером. Утром следующего дня во время завтрака, между делом задача была решена примерно за 10 минут. Опишем наши шаги. Первый шаг — надо сделать обратный перевод на немецкий язык. Любой человек, который сталкивался с этой проблемой или близкими к ней задачами транслитерации и транскрипции, знает насколько это сложно и неоднозначно. Поясним, что в случае простейшего толкования транслитерация — это запись слов одного языка с помощью алфавита другого языка. Элементарный пример — запись латиницей русской фамилии. Как например, записать Мещеряков? Букву я можно записать как j, ja, ia, iy и т. д. Неоднозначно записывается и буква щ. Значит возможны разные сочетания. Если не знать специальных приёмов, то узнать как была транслитерирована фамилия — это длительная и капризная задача. Транскрипция — это запись, имён и названий средствами иного языка. Так фамилию Hudson по-русски можно записать и как Гудзон, и как Хадсон. Имеется много забавных примеров, связанных с неоднозначностью этой операции и отсутствием строгих правил. Кое-что можно найти в нашей цитировавшейся выше книге. Однако, прежде чем пускаться во все тяжкие надо проверить Елену Лопушанскую. То, что она, как вскользь замечено Д. Горбатовым, живёт в Дюссельдорофе, ещё не говорит о том, что она способна найти и перевести с ??? музыковедческий текст. Д. Горбатов достаточно неуважительно называет её «некая». Как выясняется, зря.
Итак, начинаем с Елены Лопушанской. Задача простая. Вводим слова Елена Лдопушанская. Выпадает куча материалов — девочки спортсменки, студентки и т. п. Рафинируем поиск. Ищем: Елена Лопушанская Германия и Елена Лопушанская музыковед. Строго говоря больших проблем нет. Просто за рубежом есть два музыковеда с этим именем и фамилией, живших ранее в России и имеющих высшее музыкальное образование. Одна живёт в Бельгии, другая в Дюссельдорфе. Та, которая живёт в Дюссельдорфе и есть искомая. Она пишет статьи по искусствоведению и публикует их в немецком русскоязычном журнале Partner, издаваемом в Дортмунде. Журнал на первый взгляд намного более серьезный, чем альманах Лебедь, откуда и взяты Д. Горбатовым данные, и где пишет он сам. Публикации выложены в Интернете. Но они начинаются с 2003 года. Статья Лопушанской вышла в свет в 2001 году. Судя по всему, Д. Горбатов этим и не интересовался. Мы же просто убедились, что по своим знаниям и музыки, и языка Е. Лопушанская вполне могла найти исходный немецкий текст и самостоятельно перевести его на русский язык. Так что, искать исходную немецкую цитату вполне разумно.
Теперь надо задать поиск цитаты. Поскольку перевод фразы заведомо неоднозначен нужно провести полнотекстовый поиск по сочетанию нескольких (от 2 до 5) ключевых слов. Два слова очевидны — это фамилии Wagner и Mann. Этого маловато, так как в немецко язычной сети много Mann’ов, да и поиск может вестись по словам, где сочетание букв mann только часть слова. Короче, добавляем ещё слово Thomas. Теперь нужно ещё одно характерное слово. Конечно это гном. Быстренько добавляем Zwerg и запускаем поиск. Выбор ИПС очевиден — Google. Это многоязычная поисковая машина, которая по введённым словам сама определяет язык и ищет в соответствующем секторе сети. Не случайно Google по числу посещений русскоязычных пользователей устойчиво держит первое место. Наш первый поисковый шаг особой пользы не приносит. Множество адресов, которые похожи на то, что было в Рунете: всякая нечисть из Niebelungenlied. Правда есть и правильный ответ. Но мы его не расшифровали. Этот ответ находится где-то в примечаниях английской книги объемом свыше 200 стр. Ну, не читать же весь текст без уверенности в успехе! Причина неудачи ясна. Мы перевели гном, как Zwerg. С детства помним, что Zwerg — это скорее карлик. На вспомогательном компьютере включаем многоязычный словарь ABBYY LINGVO 12. Выясняем, что гном на немецкий можно перевести как: Gnom, Kobold и Zwerg. В русском тексте стоит гном — вот и выбираем Gnom. Нужную цитату и источник находим сразу. Они стоят на второй и третьей позициях в списке выданных адресов. Это самое лучшее, что может быть. (На первом месте, как знают многие, занимающиеся поиском, нужный адрес стоит очень редко). Итак источник: письмо Томаса Манна к Julius Bab от 14 сентября 1911 года. Текст цитаты дан на английском языке. Вот он: «gnom from Saxony with enormous talent and despicable character». Фактически тот же текст, что и в исходной русскоязычной цитате.
По существу поисковая задача решена — текст не выдуманный, место откуда он взят найдено. В то же самое время остаётся некая неудовлетворённость: цитата ведь приведена в английском переводе. Подлинность при совпадении разных переводов очевидна, но где же исходный немецкий текст? Объясняя это, приносим извинения читателю. Как многие люди, часто работающие с компьютером и с Интернетом, мы в своей речи часто «одушевляем» их. Это связано с тем, что так говорить и писать удобнее. Не более того. Итак, в чём же дело? Оказывается мы допустили маленькую оплошность. Мы не учли, что практически всегда компьютер не делает разницы между строчной и прописной буквами. Немецкий Gnom и английский gnome он воспринимает одинаково, несмотря на одну лишнюю букву в английском слове. А мы по правде говоря, вообще не подумали о том, как звучит гном по-английски. Короче говоря Google посчитал наш текст английским. Надо сказать, что мы, русскоязычные, мало думает о распознавании иностранных вставок в тексты. Скажем, читая Войну и мир мы прекрасно понимаем, где идёт русский текст, а где французский. В английском же книгах часто для выделения вставок на других европейских языках принято выделять их курсивом. ИПС Google не идеальна. У неё имеются проблемы с выбором языка поиска. Например, можно набрать текст английскими буквами. Машина произведёт поиск и найдёт много адресов. Но частенько это будет поиск в Рунете, а не в английском секторе Интернета. Это связано с тем, что часто называют интеллектуальностью ИПС. Машина видит, что поисковый запрос пришёл из России и пытается помочь. Так, если зайти на адрес http://www.google.com можно оказаться на адресе http://www.google.ru . Для того, чтобы заставить эту ИПС искать в английском секторе надо принять несложные специальные меры. Их несколько. Самая простая, добавить к URL-адресу поисковика окончание — получается что-нибудь типа: ***/en. Вообще же вариантов несколько. Мы действуем иначе, но только в силу привычки. В то же самое время, при неопределённости или многоязычности запроса Google ищет только в английском секторе. Короче, надо в поисковый запрос добавить слово, которое определённо было бы немецким. (Фамилия Wagner, конечно явно немецкая. Но англичане фамилии авторов практически никогда не транслитерируют.) Итак, у нас есть слова Томас Манн, Вагнер и гном. ИПС ищет все ресурсы, где эти слова встречаются вместе. На первое место она ставит те ресурсы, где все эти ключевые слова встречаются одновременно. Запрос по существу звучит примерно так: И Томас И Манн И Вагнер И гном. ( И — это поисковый оператор, подразумеваемый по умолчанию). Добавим немецкое про
(von). То есть теперь запрос будет иметь смысл, который похож на вопрос: Томас Манн о Вагнере и гноме или же наоборот Вагнер о Томасе Манне и гноме. В то же время чисто немецкое von заведомо переведёт машину в немецко язычный сектор Интернета.
Итак, добавляем von и ищем. Нужные ресурсы находятся сразу. Они расположены уже на втором и третьем местах. В них имеется нужная цитата на немецком языке. На приведённом ниже рисунке полностью приводится приводится один из этих ресурсов. В этом ресурсе речь идёт о художнике Маттиассе Оце (Matthias Oze), который в местечке Graupa (Großgraupa), где недалеко от Дрездена Вагнер жил и писал музыку к Лоэнгрину в мае 1846 года, сделал ряд акварельных карикатур этой идиллии. В ноябре 2004 года в музее этого местечка открылась выставка упомянутых карикатур. В качестве названия этой выставки использована искомая цитата. Это место текста и сама цитата выделены нами цветом. Время, когда эти слова написаны Томасом Манном, называется опять то же самое — 1911 год. Текст цитаты отвечает обеим имеющимся у нас переводам — русскому и английскому. Теперь у нас имеется и исходный текст, и время написания. Более того факт вынесения этой цитаты в качестве названия выставки, говорит о её широкой известности. Ну, а когда говорят об известных всем вещах, источники указывают редко. Д. Горбатов ведь не поясняет откуда в его заметке цитата из Пушкина. Российский читатель это и так знает. Ели же перевести Пушкина на какой-либо европейский язык, то, скажем, французу будет не очень понятно, откуда всё это взялось.

Karikaturen von Matthias Ose zu Richard Wagner im Museum in Graupa

Von Thomas Morgenroth

„Gott sei Lob, ich bin wieder auf dem Lande, drei Stunden von Dresden in der reizendsten Gegend von der Sächsischen Schweiz, und fange wieder an, als Mensch und Künstler aufzuatmen.!“ Das schreibt Richard Wagner am 21. Mai 1846 in seinem Brief aus Großgraupe, wie Graupa bei Pirna damals hieß. Bilder sind nicht überliefert 158 Jahre später hat Matthias Ose die Idylle gezeichnet: er legt Wagner ins Gras, setzt Ihm einen Strohhut auf und lässt den Großnasigen auf einem Blumenstengel kauen. Im Hintergrund erheben sich majestätisch die Felsen des Elbsandsteingebirges.
Es ist ein schönes Aquarell, wohl komponiert und sorgfältig ausgeführt. Ose bezeichnet es als Karikatur. Als solche sind seine Bilder allerdings nicht immer gleich auszumachen. Der Künstler aus Bayreuth kommentiert Wagners Leben zurückhaltend, mit hintergründigem Humor. Schenkelklopfende, brüllende Lacher wird es vor seinen Zeichnungen, von seltenen Ausnahmen abgesehen, nicht geben.

Im Museum in Graupa, dort, wo Wagner im Sommer 1846 die Musik zu Lohengrin skizzierte, ist jetzt eine Auswahl von Oses Karikaturen zu betrachten. Sechs hat er extra für diesen Anlass gezeichnet: Wagner mit Schwan und Nachen im Liebethaler Grund, Wagner badend in der Elbe und Wagner an der Lochmühle, Bier trinkend mit Hund.
Ein Zitat von Thomas Mann gibt der Ausstellung in Graupa den Titel. Der Schriftsteller charakterisierte Wagner 1911 folgendermaßen:“…dieser schnupfende Gnom aus Sachsen mit dem Bombentalent und dem schäbigen Charakter…

Sächsische Zeitung,8.11.2004

В общем всё, о чём писал Д. Горбатов нашло своё объяснение. При этом не потребовалось длительной библиографической работы. Сила методов поиска в Интернете нами показана. Осталось совсем немного. Д. Горбатов косвенно намекает на то, что Е.Лопушанская сознательно исказила цитату, чтобы принизить Вагнера. Теперь мы можем это проверить. Пристально посмотрим на исходный немецкий текст и русский перевод, с которого мы начинали. Тексты почти полностью совпадают, но есть два отличия. Первое в немецком тексте говорится Gnom aus Sachsen, в английском говорится: gnome from Saxony. Это означает дословно: гном из Саксонии. В русском же переводе говорится саксонский гном. Разница не существенная. Второе отличие иное. И в русском, и в английском вариантах перевода отсутствует, очень существенное определение, которое стоит перед словом гном в немецком источнике. (Возможно именно поэтому туда и поставлено слово саксонский). Это два слова: dieser schnupfende Gnom. Слово dieser — этот конечно никакой смысловой нагрузки не несёт. Слово же schnupfende иное. Чтобы не мудрить, сразу обращаемся к словарю. Перевод может быть разным. Один — это насморк. Отсюда переводы типа: хлюпающий носом, всхлипывающий, рыдающий. Ещё один смысл — нюхающий табак, пропахший табаком. Если исходить из идеи о желании принизить Вагнера, то можно перевести расширительно и сказать, сопливый, вонючий (от табака) и т. д. Ещё один вариант перевода этого слова: сердитый, иногда злобный. Исходя из того, что писал в то время Манн о Вагнере, такой перевод был бы оправдан. В общем же все варианты перевода достаточно недоброжелательны к Вагнеру. Е. Лопушанская и английский переводчик это просто опустили. Если исходить из предположения Д. Горбатова об искажении исходного текста при переводе на русский язык, то это искажение направлено не на унижение Вагнера, а в противоположную сторону. Добавим от себя, что Томас Манн употреблял в адрес Вагнера и более сильные выражения — например schäbigen Charakter. Schäbigen можно перевести как убогий, жалкий, мелочный и даже подлый.
Казалось бы это уже всё. Но хочется ещё проверить, как сработает ИПС, если в неё ввести полный текст немецкой цитаты. Мы делали это уже из чистого любопытства. Ожидалось, что выпадет пара адресов, и среди них может оказаться полный текст письма Манна. Результат, однако, был неожиданным. Количество URL-адресов с этим кусочком текста превышало 40. Естественно, читать всё было и сложно, и не нужно. Мы бегло просмотрели самые первые в списке адреса. Какая-то ежедневная музыкальная газета, программки, словари и т. п. Короче говоря — эта фраза на самом деле хорошо известна в Германии. Поэтому на её источник уже никто не указывает. Вот теперь действительно всё!
Итак, что же в итоге? Наша цель показать как можно эффективно искать в Интернете достигнута. Даже представать себе невозможно, какое количество времени пришлось бы потратить, чтобы ходить по библиотекам и всё это отыскивать. Скорее всего, большинство людей просто бы махнуло на такой поиск рукой. В личном плане пара-другая дополнительной тренировки всегда полезна. Но наша главная задача — извлечь пользу для учебного процесса. Давать эту задачу студентам не имеет смысла. Наши студенты языки знают плохо. В лучшем случае — это только один язык. Прыгать с языка на язык они просто не могут. В то же время, как пример для рассказа на лекциях или какой-то кусочек для вспомогательных пособий, этот случай хорош. Можно сказать, что затеяв изложить это на сайте ЭНС, мы подготовили кое-что и для пополнения материалов по организации своего учебного процесса.
Что можно сказать о гипотезе Д. Горбатова? Об антисемитизме Вагнера заново говорить не имеет смысла. Можно сослаться на известный биографический телефильм. Можно прочитать книгу Joachim Köhler. Она, кстати переведена на английский язык и под названием: Wagner’s Hitler: The Prophert and his Disciple издана в Принстоне. В общем читатель, если захочет, может сам легко оценить этот материал. Нашей темы это не касается.
В 3-ем издании книги А.Ф. Лосев, А.А. Тахо-Годи Платон — Аристотель — М.: «Молодая гвардия» 2005. 398 с. Серия ЖЗЛ. на стр. 39 говорится: «Пифагор якобы впервые использовал слово философ. Тиран Поликрат спросил его, кто он. Ответ: я не мудрец (sophos), а любитель мудрости.» С тех пор, вероятно, любовь к размышлениям, рассуждениям, различного рода мысленным высказываниям и т. п. заслуженно пользуется большим почётом. Человек, любящий думать, всегда пользуется в широких кругах уважением. В современной России имеется даже газета «Дуэль», рядом с заглавием печатающая: Для тех, кто любит думать. (Газета выкладывается в Интернет — http://www.duel.ru ). Однако только недавно стали понимать иное. Это иное отражено в широко распространённой фразе, автор которой нам не известен: Любить думать мало, надо ещё уметь думать. Кажется это впервые было сказано по поводу весьма известного автора. Мы говорим об этом, так как, если взглянуть на то, что рассказано в этом разделе чуть со стороны, то можно увидеть, что размышления и домыслы без профессиональной работы, часто приводят к ошибкам и уж точно к поверхностному пониманию ситуации. Не следует полагать, будто мы это говорим адресуясь к Д. Горбатову. В равной мере, и даже в первую очередь, мы это прилагаем в себе. Нельзя увлекаться и принимать непроверенные выводы. Почти всегда простое — это фантазия. (Цитируем по памяти, и кто это сказал не помним.) К сожалению, в работе таких ошибок, связанных со спешкой или нечётким пониманием проблемы, избежать нельзя. Поисковая работа же строится главным образом на обобщении личного опыта и опыта других. Поэтому выделение ошибок в такой работе — это основной залог успеха. Иными словами, поисковая работа, как никакая другая, связана с умением осмысливать результаты. Именно в силу этих причин, мы и относим выше приведённое замечание в первую очередь к себе.

Оценка надёжности и достоверности результатов поиска

Для понимания специфики поисковых действий одного описания, которое сделано нами в предыдущем разделе, вполне достаточно. Однако, полезно остановиться на вопросе о оценке качества результатов, обнаруживаемых в процессе поиска. Надёжность найденных сведений важна всегда. Однако, при поиске в Интернете нужно учитывать некоторые особенности. Они связаны с относительной быстротой поисковой работы. Эта быстрота приносит много результатов и проблема оценки их качества приобретает огромное значение. Имеют свои особенности и сами ресурсы, имеющиеся в Интернете. В те годы, когда российская ИПС Яндекс ещё только боролась за массовое признание, была широко известна рекламная фраза: Яндекс знает всё. Косвенно это соответствовало утверждению о том, что в Интернете есть всё. Конечно, это преувеличение — в Интернете имеется огромное количество сведений, но говорить о том, что в нём аккумулированы все человеческие знания неверно. Итак, в сети есть великое множество знаний и сведений. Их намного больше, чем где-либо ещё. Мы уже говорили о понятии демократичности Интернета, то есть о полной свободе каждого размещать в сети любую информацию. Отсутствие в сети какого-либо регулятора разрешает размещать в ней любые материалы практически бесконтрольно. Это иногда называют свободой выражения. О некоторых естественных и очень редких исключениях, типа призывов к экстремизму, мы не говорим. Итак, особенности Интернета — это массовость ресурсов, разброс в компетентности авторов и полное отсутствие контроля за содержанием ресурсов. Такая ситуация имеет множество достоинств. С другой стороны пользователь никогда не знает насколько надёжны обнаруженные им результаты. Оценка надёжности результатов становится личной проблемой пользователя. Здесь тоже нужны некоторые умения и знание определённых приёмов. Мы попытаемся дать представление о них в этом разделе. Эти приёмы интересны ещё и тем, что при их выполнении пользователь нередко обогащается новыми полезными сведениями.
Надёжность данных, найденных в сети определяется несколькими способами. Они, в основном косвенные. Поэтому лучше всего стараться использовать несколько способов одновременно. Имеется два подхода к этому вопросу. Один основан на анализе источника сведений, а другой на анализе обнаруженного ресурса. Качество источника оценивается на анализе ошибочных сведений, который он представляет. Так пару лет тому назад на сайте одной из российских ИПС в разделе туристических сведений в секторе Австрия в качестве валюты страны указывались шиллинги, хотя к тому времени Австрия уже давно перешла на евро. В другом разделе, посвящённом Милану, рассказывалось о туристских трамваях жёлтого цвета, которых к тому времени в городе уже не было. Вывод очень простой — материалы не обновляются и лучше к этой поисковой системе, по крайне мере в сфере туризма, не обращаться. Другой пример, если на новостной ленте часто появляются сведения, которые через час-два убираются — ответ однозначен: здесь много ненадёжных материалов.
Особенностью Интернета можно считать и то, что многие ресурсы определяются неявным голосованием пользователей. Так, в частности создаются многие статьи Википедии. Мнение большинства не всегда правильно. Классический пример, во время суда над Иисусом большинство кричало: «Распни его!». По этой причине к различным поисковым системам, работающим по схеме Топ-100 — это, например, самая старая российская ИПС Рамблер (www.rambler.ru) следует относится с повышенной осторожностью. Точно также следует относится и ряду материалов в Википедии. Их проще всего использовать для поиска сведений о более проверенных источниках питания. Особенно это касается биографических данных о ныне здравствующих персонах. Шутка на тему о том, что биографии ищут в энциклопедии, а автобиографии в Википедии, имеет под собой некие основания.
Надёжность конкретного ресурса определяется его сравнением с другими ресурсами, оценкой надёжности самого источника и проверкой квалификации автора. Человеку, который умело пользуется Интернетом, это сделать не трудно. В первую очередь надо обращать внимание на расходящиеся данные. Так, занимаясь поиском первых законов об авторском праве, легко получить сведения о том, что первый такой закон был принят в Англии и назывался он Статут Анны. Однако, по году его издания: 1709 или 1710 сведения разных источников расходятся. Обе группы источников надёжны. Тут надо или выполнять глубокий и длительный поиск, или же как-то обойти этот вопрос, например посредством примечания. Оценка расходящихся дат и других данных иногда превращается в интересную поисковую задачу, которая часто позволяет узнать много нового. Такой поиск в сети намного проще и быстрее, чем поиск традиционными библиографическими методами. Проиллюстрируем сказанное примером. Для простоты обратимся к тому же материалу Д. Горбатова, что и в предыдущем разделе. Сразу скажем, что к содержанию материала всё это имеет косвенное отношение. Более того. Д. Горбатов, указавший на наличие расхождений в цифрах, был абсолютно прав. То, что причину этих расхождений Д. Горабтов объяснил предвзято, нас не затрагивает. Нас в этом примере привлекает то, что предыдущий раздел подготовил читателя к пониманию вопроса. Только и всего.
Итак в приводившейся выше цитате из Д. Горбатова говорится, что рост 152 см, который приписывает Е. Лопушанская Вагнеру, неверен. Он расходится со значением 166 см., известным Д.Горбатову. Он безусловно прав, когда говорит о том, что расхождение в 14 см. существенно. Нам интересно рассказать, как в этом нужно разбираться, и что на этом пути можно обнаружить. Сначала проверяем источник Д.Горбатова. Переход на него дан. Это некий популярный сайт, посвящённый росту великих людей. Материал добавил некто Андрей, который заведомо пользуется отнюдь не первоисточниками. Поиск в Рунете по словам Вагнер И рост приводит ко множеству сайтов. Везде приводится цифра в 166 см. В то же самое время все эти сайты не дают подтверждения своей надёжности. Это какие-то игры типа: Угадай рост**** или сайт Невысокие, но великие. Материалы заведомо вторичные, а источника нигде нет. Переход к англоязычным и немецко язычным сайтам ясности не вносит — везде 166 см без указания источника сведений. Цифра 152 см вообще нигде не попадается. Но она тоже откуда-то взялась. Если подходить добросовестно, и не предполагать наличия подтасовки или случайной ошибки при перепечатке, то здесь что-то не учтено. Иными словами, мы как-то неправильно понимаем суть причины цифровых расхождений. Следует признаться, что к формулировке правдоподобной гипотезы об этих причинах мы были подготовлены нашей предыдущей деятельностью. Однако, мы бы долго блуждали в потёмках, если бы не незаметная подсказка на одном из англоязычных сайтов. Там рост Вагнера даётся как: 5′ 5½» (1,66 m). То есть рост приводится не в метрической системе единиц, а в английских мерах (футы, дюймы и т. д.). Англичане переход к метрической системе осуществили недавно, но перевести самостоятельно одни цифры в другие могут. Здесь важно иное — похоже, что исходные данные были не метрическими. Именно здесь и кроется, по нашему мнению, источник расхождений. Вагнер родился в 1813 году, а умер в 1883. Метрическая система была создана во времена французской революции. Несмотря на свои преимущества, она вводилась даже во Франции с известными трудностями. Так в 1809 году она была отменена Наполеоном. При её восстановлении к десятичному делению суточного промежутка времени (сутки по 10 часов, каждый час по 100 минут, где каждая минута делится на 100 секунд) никогда не возвращались. Тому есть много причин. Мы и сейчас объем нефти измеряем в баррелях, а в США ещё и в галлонах. Кое-где пиво разливают пинтами. Размеры одежды и обуви — совсем не метрические единицы. Перечислять можно долго. Инерция жизни очень велика. Старые, уже отменённые единицы, используются очень долго. Так пуды в России отменили в 1918 году, а урожай в пудах считали ещё при Хрущёве.
Вагнер жил в Германии, раздробленной на множество государств. Метрические системы в немецких государствах вводили в два приёма — в 1868 году (17 августа) и окончательно в 1872 году (1 января). Это было связано с политикой — вводили после после Австро-Прусской и после Франко-Германской войн. Никто не помнит этих деталей. Все они находятся или проверяются поиском в Интернете. Эти результаты с очевидностью говорят о том, что исходные сведения о росте Вагнера были выражены в старых единицах. Хочется спросить: Что же здесь трудного? Скажем: округлённо 1 пуд приблизительно 16 кг. В центнере (100 кг) 6,25 пуда. В тонне их 62,5. Бери и умножай или дели, если надо. Однако, дело не так просто. Пусть Вам нужно перевести мили в километры или метры. Тут сразу же возникает вопрос, а какие мили? Есть ведь морская миля, есть английская сухопутная, географическая и т. д. В прошлом (а миля идёт от 1000 двойных шагов римского солдата) миль было великое множество. То же самое касается и других единиц, в частности и тех, в которых измеряется рост. Так в немецко язычных странах за основу иногда брался венский дюйм, но в Германии были и другие дюймы. Самым большим считался прусский — 27 см. Мы же все привыкли к английскому дюйму. Но и правила его пересчета в метрические системы менялись неоднократно: в 1819, 1895, 1922, 1933, 1947, 1958 годах. Чтобы не быть многословными приведём рисунок. Он, как и все приводимые здесь сведения, найден в Интернете. Многочисленные перепечатки сделали его неудобочитаемым. Но этого и не надо. Рисунок даёт пересчет всех немецких дюймов в венский дюйм. Здесь интересно только количество строк. Каждая строка — это значение единицы длины в той или иной стране. Значит, мало знать рост Вагнера. Нужно ещё знать в какой стране опубликованы эти

сведения и уметь правильно перевести их в метрическую систему. Не только историки и искусствоведы, но и многие метрологи этих исторических тонкостей не знают. Поэтому они особо над старыми пересчётами не задумываются. Вот так и получилось, что кто-то перевёл исходя из исторических значений, а кто-то по современному. Это, конечно, гипотеза, но она наиболее правдоподобна. Можно проделать и дальнейшую работу — искать первоисточники, читать, делать переводы. Работа эта трудоёмкая. Ничего полезного она дать не может. Оценивая сделанное скажем, что весь поиск, после понимания проблемы, занял у нас примерно 15 минут. На разбор всей задачи потребовалось не более 40 минут. Сколько времени бы потребовало это, работай мы классическими методами, даже страшно подумать. В итоге имеем: понимание проблемы, хороший пример поисковой задачи и, наконец, накопление новых сведений об истории становления системы измерений.
Дадим ещё один пример проверки данных, который привёл нас к неожиданным результатам. На русский язык переведена прекрасная книга Нормана Дэвиса: История Европы — М.: «АСТ Москва». «АСТ Хранитель». 2005. 943 с. Книга очень интересная и полезная. Её можно теперь скачать из сети. Однако, при переводе и редактировании в ней допущены определённые ошибки. В особенности это касается ряда мелких фактов российской истории. Их английский исследователь мог и не знать. Поэтому упрёк в соответствующих погрешностях надо делать в адрес переводчиков и редакторов. Мы читали эту книгу, готовя курс по использованию Интернета при редактировании книг. Естественно, что все эти мелкие погрешности мы старательно собрали. Было, в частности обращено внимание на историю Пугачёва, который в книге назван отставным военным. Мы также обратили внимание на то, что Норман Дэвис говорит о четвертовании Пугачёва. Пришлось высказаться в том плане, что, скорее всего, автор перепутал Пугачёва и Степана Разина. Увы, мы ошиблись. Чуть позже быстрая проверка в Интернете раскрыла нам на это глаза. Мы ведь все об этом событии судим по пушкинской «Капитанской дочке», где Гринёв видит отрубленную голову Пугачёва. Вот и привыкли мы считать, что его казнили простым отсечением головы. Когда у нас возникло некое чувство дискомфорта, связанного со скоропалительностью нашего вывода, мы сразу же провели полнотекстовый поиск по запросу: Казнь Пугачёва. Тут немедленно выяснилось, что Норман Дэвис, строго говоря, был прав. Пугачёва приговорили к казни четвертованием, но провели её, если так можно выразиться, в обратном порядке. То есть сначала отсекли голову, а потому уже и всё остальное. Почему это было сделано, в Интернете сведения так просто не отыскать. Но, когда проблема обозначилась, то нашёлся и человек, который всё объяснил. Оказывается, было решено не нарушая закона (приговор), проявить гуманность. Этот вопрос всплыл на процессе декабристов и занимающийся этим процессом А.Л. Перельман, знакомившийся с материалами по суду над декабристами во всех деталях, всё нам объяснил. Тем не менее, если бы не проверка методами сетевого поиска, мы бы никогда об этом не узнали.

Коротко об анализе данных

Как уже говорилось в начале, в сети имеется множество различных сведений, на основе анализа которых можно получить ряд полезных и интересных выводов. В очень серьёзных случаях для этого применяются особые математические программы. Однако имеется и много куда более простых аналитических задач. О них мы и постараемся дать понятие. У этой деятельности нет строго установившегося названия. Строгое русское сопоставительный анализ, насколько нам известно, реально используется только в лингвистике. Английское Data mining тоже применяется не во всех случаях. Для обозначения проблемы опишем несколько простых примеров. Так, Вы можете обратиться в книжный интернет-магазин и вдруг увидеть обращение типа: Уважаемый ***** в прошлый раз вы покупали *****. Другие покупатели одновременно с этой книгой приобретали ещё *****. Вариантов текста здесь великое множество. Во многих газетах, Вас просят отметить понравившиеся статьи, и на этой основе формируют профиль читателя. Особенно распространены подобные действия в социальных сетях.
Когда покупатель приходит в магазин и оплачивает чек, он часто не подозревает, что анализируя его покупки можно установить какие типы товаров покупаются одновременно. Это учитывается и в рекламе, и в раскладке товаров по полкам. Исследуя различные материалы имеющиеся в сети можно получить сведения о работе той или иной фирмы. Это называется Конкурентная разведка. Анализом рассеянных в электронных сетях данных профессионально занимаются во многих странах. В каждой стране имеются свои проблемы. Так например, в ряде стран докторские степени выдаёт множество организаций. Оценка значимости подобных степеней может быть очень разной. Поэтому ряд кадровых и рекрутинговых фирм при обращении к ним человека с подобным дипломом, проводят сетевой поиск, призванный выяснить кто и когда получал такой же диплом, остался ли он после этого в профессии, и как далеко он в ней продвинулся. В ряде стран, в том числе и в России, в последние годы возникло множество разных Академий. Соответственно часто возникает необходимость понять, что кроется за членством в этих Академиях. Это справедливо не только для России. Мы лично такими задачами никогда не занимались. Поэтому здесь нами только обозначается то, что в этой сфере в ряде стран также применяются методы информационного поиска в сети.

Опыт обучения поиску

Вопросы, рассмотренные в предыдущих разделах, иллюстрируют содержание и методы поисковой работы. Умение искать нужно специалистам разного профиля. При этом степень овладения этими навыками должна быть очень разная. Простейшие навыки возникают в процессе самостоятельной работы. В других случаях основой может считаться практический опыт. Однако, для серьёзной и успешной работы во многих случаях необходимо специальное обучение. Мы начали преподавание приёмам поиска в Интернете несколько лет тому назад. Через наши руки прошло около 250 студентов старших курсов, которые, как уже упоминалось, проходят подготовку по специальностям Редактирование и Экономика в книготорговле. Кроме теоретического курса все учащиеся должны выполнять индивидуальные задания. Задания состоят из 7 задач. При этом 3-4 задания включают практический поиск материалов на заданную тему с целью получения ответа на заданные вопросы. Наш опыт оказал, что поисковые умения включают в себя не только выбор ИПС или запись вопроса с помощью сложных операторов. Существенную роль играет умение чётко сформулировать поисковый вопрос. Эта формулировка во многом зависит от общей культуры студента и его знаний в соответствующей области. При этом оказывается, что иногда достаточно сделать небольшую подсказку, чтобы задача стала решаемой. Чтобы прояснить сущность проблемы, приведём далее два примера. Один из них иллюстрирует положительную роль небольшой подсказки. Второй показывает, что имеются ситуации, когда отсутствие необходимых первичных знаний не может быть компенсировано и предлагаемая задача оказывается не решаемой. Все приводимые далее задачи взяты из практикума. Их можно найти на нашем персональном сайте и на сайте http://akadionw.spb.ru .
Опишем первую задачу. В ней предлагается дать сведения о переходе российских войск через Сиваш с целью атаки Крыма. Люди старшего поколения, выросшие в России, быстро отвечают, что это было в конце гражданской войны, а именно 8 ноября 1920 года. Сам переход был совершён войсками под командованием М.В. Фрунзе. Его и принято считать автором идеи. Более молодые поколения знают об этом из снятого в 1968 году кинофильма Служили два товарища или же из телефильмов по пьесе М. Булгакова Бег. Исходя из этих фоновых знаний, студенты строят свой поисковый запрос и фактически больше ничего не находят . Иногда, но крайне редко, они находят сведения о событиях 1943 года. В то же время, задание можно уточнить, сказав: Принято считать, что первый переход через Сиваш был в конце гражданской войны. Ответьте, когда на самом деле этот поход был совершён впервые? В этом случае без особых затруднений, просто обращаясь к Википедии, студенты в конце концов находят сведения о том, что ещё во времена Анны Иоановны русские войска под командованием Ласси во время русско-турецкой войны 1735-1739 годов дважды совершал такой переход. Более глубоких сведений о других событиях здесь требовать нельзя.
Так небольшая подсказка позволяет решить поисковую задачу. Аналогичные косвенные подсказки позволяют студентам быстро найти решения вопросов о русско-шведских войнах после смерти Петра I. Здесь надо помочь им понять, что Северная война с участием Петра I не была последней. Обычное чтение в школе Войны и мира, где упоминается война 1809 года, им не помогает. Сопоставить роман с реальной историей им трудно.
Рассмотрим теперь задачу, которую за всё это время нашего преподавания методов поиска, не смог решить ни один студент. Главное же проанализируем, какие факторы, общие для многих схожих ситуаций, являются источником трудностей. Задача формулируется так: Первой железной дорогой в Российской империи обычно считается открытая в 1855 году дорога Петербург-Москва. Третьей была дорога Петербург-Варшава. Где и когда была проложена вторя дорога? Здесь специально уточняется понятие первой дороги, чтобы отсечь небольшой первый железнодорожный путь Петербург-Царское село (Павловск), введённый в эксплуатацию ранее, и хорошо известный петербургским студентам. Ни один студент ни разу толком не смог продвинуться в решении этой задачи. Сначала укажем правильный ответ — это дорога Варшава-Вена, вводившаяся в строй в период 1853-1856 годов. Строилась она Варшавским купечеством и соединялась со строящейся из Вены дорогой на Прагу. Возникает вопрос о том, почему эта задача так трудна. Ответ, в общем, естественен: с тех пор исчезли и Российская и Австро-Венгерская империи. Ни Польша, ни Чехия или Словакия, ни нынешняя Австрия в свою историю строительства железных дорог эту дорогу не включают. В последнее время в России стали писать об единой магистрали Петербург-Псков-Варшава-Вена, опуская при этом Вильнюс. Если сопоставить даты ввода в эксплуатацию участков пути, становится ясным, что это неверно. Таким образом, понятно, где таится источник трудностей. Студенты не имеют достаточно исторических знаний, чтобы понять, что сведения надо искать только в специфических ресурсах, ориентированных на XIX век. Что касается нас, то для личных исследований мы нашли надёжные сведения в известной базе данных Österreich Lexikon: httр://www.aeiou.at/aeiou.encyclop. Или: Austria Lexikon: http://austria-lexikon.at (Новые название и адрес). Задача осложняется ещё и тем, что со времени строительства дороги многие города, с которыми связано её строительство, сменили названия: Будвайс теперь Будейовицы, Кракау это Краков, Лемберг это Львов (Лвiв) и т. д. Теперь становится понятным, что главный источник трудностей — это отсутствие необходимых знаний для правильной формулировки не очень сложного по поисковой методике запроса. За время нашего преподавания поисковых дисциплин у нас накопилось много примеров поисковых задач разного типа: и решаемых, и не решаемых. Останавливаться на их описании в этом выступлении на ЭНС не имеет смысла.

Заключение

В этом выступлении мы сделали попытку дать представление о задачах и методах новой профессии, которая возникает у нас на глазах. Ничего устоявшегося здесь ещё нет. Так буквально год-два тому назад крупнейшие российские библиотеки — РГБ, РНБ и ряд других стали оказывать платные услуги по поиску и подбору информации по заданным темам. Правда пока они ищут только в своих базах данных (БД). Поиск в зарубежных БД пока в России всерьёз никто не производит. Полагаем, что это дело ближайшего будущего.
Всё, что было нами рассказано, касается бытового и профессионально ориентированного поиска. Кроме этого, имеется ещё и утончённый поиск. Эта та область знаний, которая использует поиск в сети в качестве инструмента при выполнении исследований. Серьезность этих исследований, конечно, может заметно различаться. Основной аппарат при этом — это статистика обращений в интернет, анализ статистики появления существования тех или иных сайтов и т. п. Работ этого плана пока ещё очень мало. Кое-что кратко описано на последних страницах упоминавшейся выше нашей книги. Надо отметить, что проведение таких исследований на бесплатной основе не всегда возможно.
Для пояснения того, что такое утончённый поиск приведём простейший пример. Ныне часто говорят о растущей безграмотности и широком заимствовании иностранных слов. Если провести в Интернете запрос по тому или иному слову, то не трудно получить число сайтов в сети, где это слово используется. Изучая статистику по нескольким ИПС и рассматривая её временной ход можно получить интересные выводы. Наши прикидочные исследования показали, что обычно доля грамматических ошибок колеблется в районе 5% (относительная доля ресурсов в Рунете с наличием той или иной ошибки). Конечно, эти цифры не вполне надёжны, так как ряд пользователей применяет автоматическую проверку грамматики. Интересно, однако, другое. Среди неправильно написанных слов имеется небольшая группа с иным показателем процента распространения. Профессор филологического факультета СПбГУ Л. Зубова при беседе с ней отметила, что это может быть признаком стихийного изменения правописания. Она рекомендовала следить за этими словами в течение длительного времени. Пример подобного исследования как раз и иллюстрирует то, что принято называть утончённым поиском. Сложность в выполнении таких исследований связана с тем, что пока ещё нет хорошо отработанной техники определения погрешности статистических данных подобного типа. Имеется и ряд других сложностей методического характера. Интересно также, что все известные нам немногочисленные исследования, выполнены в зоне Рунета. Является ли это случайным, или же это объясняется нашей неосведомлённостью, мы сказать не можем. По нашему мнению исследования этого плана имеют хорошее будущее.
На этом мы позволим себе закончить наше выступление, целью которого было познакомить посетителей сайта ЭНС с новыми специальностями и приёмами работы. Надеемся, что хотя бы небольшой группе читателей это показалось интересным.