Недавно Медведев на заседании президиума Госсовета пригрозил выгонять чиновников, которые не умеют пользоваться компьютерами. Пожелание, несомненно, благое, но есть одна трудность: где критерий этого самого умения?
Компьютер — вещь универсальная, и тот, кто виртуозно умеет набирать на нем тексты государственных постановлений и пользоваться для их рассылки системами внутренней правительственной электронной почты, совсем необязательно будет так же хорошо разбираться в способах обретения нужной информации через поисковые системы.
Одна из самых сложных проблем — научить власть имущих интернет-специфике или хотя бы попытаться объяснить людям, принимающим решения, в чем она состоит. Нет, прочесть заголовки в Яндекс.Новостях или даже завести свой блог может каждый, но понять, как устроена современная Сеть, можно, только если самому, не через посредство референтов, проводить в ней достаточно времени. Когда Нургалиев в очередной раз (а именно 11 июля на заседании правительственной комиссии по профилактике правонарушений) предлагает оптом приравнять Интернет к СМИ, я вижу, что «товарищ» просто не понимает, с чем он имеет дело (ну, или прикидывается, что безразлично, — результат один). Интернет — это медиасреда для распространения информации, как воздух для звука или электромагнитные волны для радио. Принимать по отношению к нему как единому субъекту какие-то законы невозможно, ибо он не является субъектом. Нельзя приравнять к чему-то электромагнитные волны, законы можно принимать только в отношении тех, кто этими волнами пользуется для передачи информации, причем для радиосвязи это будут одни законы, для радиотелевещания — другие, а, к примеру, для радиоуправляемых беспилотных самолетов — третьи. Так и в Интернете: контролировать можно только тех, от кого информация проистекает, причем для этого уже есть все условия, в том числе и законодательные. Единственное, что требуется, — несколько просветить ответственных лиц в области специфических для Интернета форм размещения информации, и ничего ни к чему приравнивать не придется. Если Медведев имел в виду просвещение чиновников в том числе и в этом направлении, то остается только его горячо поддержать.
Тем временем сам Интернет может кардинально измениться. В предложениях «как приблизить Интернет к человеку» недостатка нет, некоторые идеи такого рода возникли еще до появления самой Всемирной сети. Наиболее, пожалуй, известны утопические концепции Теодора (Теда) Нельсона, одного из сторонников идеи «компьютера как усилителя человеческого интеллекта» (другим известным сторонником этого направления был Дуглас Энгельбарт, по ходу дела заодно изобретший мышь и оконный интерфейс). Идеи Нельсона были довольно популярны в 1990-е годы, когда его упоминали в числе первооткрывателей Интернета и даже называли автором идеи гипертекста, что неверно — последний изобрели богословы еще в Средние века (откройте Библию, и вы увидите на каждой странице отсылки к сходным местам, что и есть гипертекст), а Ванневар Буш в своей работе от 1946 года довел идею почти до современных представлений.
Правда, сам термин «гипертекст» (равно как и термин «виртуальный») придумал именно Тед Нельсон еще в 1963 году, причем понимал его значительно шире, чем сейчас: он мечтал о некоей единой литературной среде, охватывающей всю мировую литературу. В 1981-м Нельсон основал проект Xanadu, долгосрочная цель которого состояла в переводе всей мировой литературы в режим прямого онлайнового доступа, причем произведения должны быть связаны гиперссылками в единую Сеть, образуя таким образом некое Гиперпроизведение (не представляю, как это было бы возможно в свете современного авторского права, но известно, что Нельсон уделял этому вопросу самое пристальное внимание).
Охотно заимствовав у этих мечтателей саму идею перекрестных ссылок, Интернет, однако, пошел совсем иным, гораздо более приземленным путем. Не секрет, что когда Всемирная паутина создавалась, она была ориентирована на научное сообщество, типичным представителем которой и был сотрудник ЦЕРНа (Европейского центра ядерных исследований) Тим Бернерс-Ли, придумавший веб. То есть главное назначение «обычной», традиционной Сети — хранение и обмен информацией, преимущественно в текстовом виде. Понятие гипертекста даже вошло в название главного веб-протокола HTTP (HyperText Transfer Protocol — «протокол передачи гипертекста»), но, по сути, Интернет был представлен в этой концепции огромной библиотекой — непрерывно обновляемым, динамичным и с удобной навигацией, но в остальном вполне традиционным хранилищем текстов.
И несмотря на то, что уже давно в Сеть пришел Большой Бизнес, возникли различные способы социальной коммуникации (форумы, блоги, социальные сети и пр.), даже теперь, когда эта функция Интернета как «Большого Всемирного Информатория» (© братья Стругацкие) далеко не главная, принципы его работы остались такими же, как в начале 1990-х. В этой концепции Сеть состоит из структурных единиц, называемых сайтами, на которых располагаются единицы смысловые — страницы, содержащие преимущественно текстовую и изобразительную информацию. Если вдуматься, то единственное кардинальное отличие от бумажных источников здесь состоит в наличии тех самых гиперссылок, щелчком на которых легко перейти в любой другой раздел Сети. О том, какие новые качества принесла возможность оперативного обновления информации и доступность этой структуры для масс, мы сейчас не говорим — важно понять, как во всем этом ориентироваться, чтобы вместо «мусорной свалки», каковой Интернет представляется некоторым нашим деятелям, получить нечто более осмысленное.
Существующая ориентация на текст как основу Сети привела к возникновению целых направлений в исследованиях, поддержанных бизнес-сообществом и направленных на получение эффективных алгоритмов поиска в этом массиве информации. Но у этой попытки структуризации, закончившейся тем, что «весь Интернет» сгруппировался вокруг нескольких крупных поисковых порталов (общемировых — Google, Yahoo!, MSN, и национальных, как русский Яндекс или китайский Baidu), есть как минимум два принципиально неустранимых недостатка.
Во-первых, сами по себе алгоритмы поиска по тексту никогда, видимо, не смогут выдавать именно ту информацию, которую желает получить данный пользователь. Из знаменитого третьего закона Грида («компьютерная программа выполняет то, что вы ей приказали делать, а не то, что вы бы хотели, чтобы она делала») вытекает со всей определенностью, что нет таких способов, которые могли бы заставить поисковую программу «догадаться», что вы интересуетесь новостями о компании Apple, а не сведениями о сортах яблок. Живой человек сделает это легко, руководствуясь косвенными источниками всякой дополнительной информации, как часто говорят, контекстом: в большинстве случаев желания ясны просто из того, кто именно спрашивает и в какой обстановке. А для компьютеров, которые ниоткуда не могут узнать, выполняет ли запрос сельская домохозяйка или менеджер компании, торгующей электронными приборами, приходится придумывать всякие хитрые запросы и пытаться предугадать желания пользователей.
Во-вторых, практически вне охвата поисковых систем оказываются иные способы представления информации. С музыкой еще худо-бедно разобрались (так как в этом был заинтересован очень большой круг людей), но косвенным путем: вводом в цифровые форматы текстовых полей для идентификации произведения. Но с изображениями, которые для представления информации иногда даже важнее текста, дело практически стоит на месте. Адекватного алгоритма нет для решения даже простейших задач классификации изображений по типу содержимого, поставленных в общем виде (как, например, для задачи выделить из всех представленных живописных полотен только «женский портрет»). И, видимо, таких алгоритмов не будет создано никогда, просто по той причине, что невозможно саму задачу корректно сформулировать так, чтобы компьютер «понял, что от него требуется».
Даже относительно простые задачи выделения текстовых единиц из изображений (скажем, текста на сайтах, созданных с помощью распространенной технологии Flash, где сама страница никакого текста не содержит, только картинку) были худо-бедно решены лишь в последнее время и лишь для определенной узкой — но зато самой распространенной — категории случаев, а именно для этих самых Flash-сайтов. Пока этого не было, рисованные сайты, если их создатели не предпринимали дополнительных мер, оставались в области т.н. «темного веба», т.е. части Интернета, которая никогда не попадает в поисковики, а значит, остается доступной в лучшем случае лишь избранным.
Какой же выход? «Отец» Интернета сэр Тим Бернерс-Ли видит его (и непрестанно пропагандирует это свое видение) в том, чтобы направить свои усилия на развитие Сети в другом направлении, которое получило название «семантический веб». Возглавляемый Бернерсом-Ли консорциум W3C, который занимается разработкой интернет-стандартов, давно принял соответствующие правила, и взяться за создание нового Интернета можно в любой момент. Тому, однако, мешает ряд обстоятельств.
В концепции «семантического веба» (сам термин обнародован Бернерсом-Ли в мае 2001 года в публикации в журнале «Scientific American») Интернет представляется не в виде сети страниц, а в виде сети данных. На практике это означает, что любая информация, выкладываемая в Сеть, вне зависимости от ее природы, сопровождается некими описаниями, получившими название метаданных. Эти метаданные, специально приспособленные для чтения программами-роботами, а не людьми, должны предоставлять полную информацию об объекте, фактически являться его дублем, но в иной форме. Частично метаданные используются и сейчас, но они, во-первых, необязательны к применению, во-вторых, описывают только небольшую часть свойств объекта.
По задумке авторов концепции, эти метаданные должны объединяться в некие структуры (онтологии), описываемые специальным языком. Получив, например, сведения о том, что вот этот объект представляет собой «страну», программа уже «знает», что у страны есть некая «столица», что «страна» всегда имеет «население», «границы» и «соседние страны», — в общем, те, кто интересуется подробностями, смогут ознакомиться с ними, например, в статье Ильи Щурова «Ахиллесова пята Семантического веба» (журнал «Компьютерра», №741-742, 08.07.2008). Главное в этой концепции то, что отпадает необходимость в традиционных поисковых системах с их неоднозначностью: каждый пользователь имеет своего личного «агента» (это может быть просто программа или специальный сайт с такой программой), который выполняет для него поиск информации, ориентируясь на смысл запроса и объединяя разрозненные сведения с разных ресурсов в единую стройную систему. В этой системе пользователь ищет, например, некоторую персону и получает сразу все относящиеся к ней данные, которые можно разыскать в Сети, где бы они ни находились.
По моему личному мнению, для Нургалиева концепция «семантического веба» была бы просто полным обломом. Сейчас есть некий сайт, который гоняют с места на место и могут заставить провайдеров фильтровать к нему доступ, и если это станет государственной политикой («интернет-цензурой»), то обычный частный пользователь почти ничего тут поделать не сможет. А вот в концепции «семантического веба» сайта, размещаемого на конкретном сервере, и централизованного доступа к нему как такового не существует. Есть данные, которые можно распылить по множеству серверов и динамично менять их местоположение, и спецслужбы замучаются вылавливать «криминал» по мелким кусочкам.
Не сомневаюсь, что что-то и тут придумают, но речь не об этом: есть сомнения, что концепция «семантического веба» в целом, кроме отдельных ее элементов, в том числе уже существующих (таких как RSS-ленты новостей* или инициатива Google по объединению всех социальных сетей под названием OpenSocial), когда-нибудь осуществится на практике.
Одно из главных сомнений заключается в «человеческом факторе». В ситуации, когда люди, в том числе и профессионалы в деле создания веб-сайтов, не хотят полностью следовать даже стандартам представления обычных веб-страниц (из-за чего многие сайты в разных браузерах выглядят часто совсем не так, как задумал автор), маловероятно, чтобы они стали заполнять многочисленные поля метаданных, да еще и досконально изучив соответствующие правила. А если бы и стали — где гарантии безошибочности этой информации? Есть в этом плане и сомнения общефилософского плана: вряд ли все объекты на свете можно представить в виде законченных иерархических структур, однозначно их описывающих.
Еще важнее, что для такой работы нет соответствующих стимулов. Как я уже упоминал, в «семантическом вебе» вообще пропадает такая единица, как сайт, имеющий автора, посещаемость и конкретный адрес, — остаются лишь «голые» данные, их потребители и программы-агенты. Какой интерес создателю некоего ресурса отдавать свою собранную кропотливым трудом информацию «дяде»? Как он сможет, например, монетизировать свои старания за счет рекламы? Придется кардинально перестраивать свои бизнес-модели, например, интернет-магазинам, потому что они наравне с другими станут лишь поставщиками информации (по запросу вроде «где купить?»). А как же «фирменный стиль» сайта, бренд с его репутацией, удобный для запоминания домен и прочие непременные атрибуты сегодняшнего интернет-бизнеса?
На все эти вопросы у создателей концепции «семантического веба», как им кажется, есть какие-то частичные ответы. Но представляется, что пока во всем этом деле не найдется серьезных стимулов и для частных пользователей, и для корпораций, ничего не сдвинется с места: для создания нового Интернета нужно движение масс, одних частных инициатив тут недостаточно.
* RSS — технология, которая позволяет представить информацию из различных источников в едином формате. Обычно с помощью RSS дается краткое описание новой информации, появившейся на сайте, и ссылка на ее полную версию, что позволяет разместить на другом сайте ленту новостей (причем из разных источников), обновляющуюся автоматически.