Защищая родину, войска будут бороться с агой. Как ее уничтожать? Мы живем в цивилизованном мире, и армия должна использовать самый гуманный (то есть человечный? странно… может, буфонный — жабный?) способ. Например, их можно расстреливать резиновыми пулями или мозжить битами. Профессиональные защитники природы настаивают на замораживании жаб до смерти в морозилках — так они меньше всего мучаются. По сравнению с заливанием напалмом живых птиц, то ли заболевших, то ли не заболевших птичьим гриппом, это большой прогресс.
Мы живем в сложном, часто жестоком мире. Покидая этот мир вследствие болезни или в зубах хищников, населяющие его существа испытывают страдания, которые не регулируются никакими обществами защиты животных. Мы — часть этого мира, которая начала переделывать все остальное по своему разумению. К сожалению, не всегда негодные животные оправдывают наши ожидания. Делать их такими, как нам надо, мы будем, используя весь арсенал методов — от напалма и морозильных камер до генетической инженерии. Но почему наши действия напоминают хаотичные игры неуравновешенного ребенка, а не расчетливые шаги дальновидного управленца? — Д.Ш.
Егор Александров [efels@mail.ru]
Галактион Андреев [galaktion@computerra.ru]
Тимофей Бахвалов [tbakhvalov@computerra.ru]
Сергей Борисов [borisov@computerra.ru]
Артем Захаров [azak@computerra.ru]
Бёрд Киви [kiwi@computerra.ru]
Денис Коновальчик [dyukon@computerra.ru]
Дмитрий Шабанов [bio_news@computerra.ru]
Виктор Шепелев [vshepelev@computerra.ru]
НОВОСТИ: Микрофишки
Nintendo подтвердила слухи о том, что часть партии игровых наладонников DS Lite, предназначенной для британского рынка, была похищена в Гонконге. Конкретные цифры не называются, но поговаривают, что сумма похищенного составляет 2,3 млн. долларов. Воришки наверняка найдут куда пристроить товар — в Штатах обновленный «потаскунчик» расхватывают как горячие пирожки. Только за первые два дня было продано 135 тысяч штук. — Т.Б.
Google Calendar наконец-то смогли увидеть и пользователи Mac OS X: теперь служба поддерживает браузер Safari (помимо IE и Firefox). Поисковик номер один, некогда декларировавший «вы можете пользоваться нашими сервисами откуда угодно, лишь бы там был браузер», нынче определенно предпочитает модерновость AJAX вседоступности былых интерфейсов. — В.Ш.
IBM вместе с Технологическим университетом штата Джорджия в пух и прах разнесли предыдущий рекорд быстродействия для кремниевых микросхем. Эксперимент проводился для оценки теоретического предела производительности чипов, а тестировались кремниево-германиевые (SiGe) процессоры, охлажденные до температуры, близкой к абсолютному нулю. При комнатных температурах чип работает на частоте 350 ГГц — впечатляющий показатель, особенно в сравнении с процессорами привычных ПК. Но снизив температуру до —268 градусов по Цельсию, оверклокеры от науки добились головокружительного результата в 500 ГГц. — А.З.
Джимми Волес (Jimmy Wales), основатель и руководитель Wikipedia, выступая перед студентами Университета Пенсильвании, пожаловался на то, что получает около десятка ругательных и жалобных писем на одну и ту же тему: студенты пишут, что воспользовались сведениями, приводимыми в Википедии, для своих университетских работ и получили низкие оценки из-за неточности или неверности этих данных. Волес подробно объяснил, почему Википедию не стоит воспринимать как источник академически достоверной информации, и посоветовал студентам меньше доверять ей. Из уст «родного отца» свободной энциклопедии такие заявления прозвучали несколько эпатажно (хотя и абсолютно логично). — В.Ш.
Nokia и Siemens решили объединить свои подразделения, разрабатывающие оборудование для сетевой инфраструктуры телекоммуникационных компаний. В результате слияния будет образовано предприятие Nokia Siemens Networks с равным долевым участием партнеров. Мощный тандем поможет сократить расходы на дублирующие друг друга исследовательские программы, что позволит успешнее конкурировать с гигантами вроде Alcatel-Lucent и Ericsson, но также неминуемо повлечет массовые увольнения служащих. Ожидается, что все формальности, связанные со слиянием, будут улажены к 2007 году. Nokia Siemens Networks возглавит Саймон Бересфорд-Уайли (Simon Beresford-Wyllie, на фото), занимающий ныне пост вице-президента сетевого отделения финского концерна. — А.З.
Турецкие хакеры взломали сервер, на котором располагается один из сайтов французского подразделения корпорации Microsoft. Сервер работал под управлением Microsoft Windows Server 2003 c серверным ПО IIS 6.0. — Т.Б.
Министры 34 европейских стран собрались в Риге, чтобы обсудить перспективы интернет-покрытия на континенте. Главные из намеченных к 2010 году задач таковы: обеспечить широкополосный доступ к Сети на 90% территории (в том числе в сельских районах) и вдвое сократить количество людей, которые вообще не умеют пользоваться Интернетом. Особое внимание планируется уделить доступности веб-сайтов для престарелых, а также для людей с нарушениями зрения и слуха. По данным Еврокомиссии, на сегодняшний день в объединенной Европе всего около 10% жителей старше 65 лет используют Интернет; при этом простейшим требованиям accessibility (то есть доступности для людей с различными физиологическими нарушениями) отвечает меньше 3% «публичных сайтов». — В.Ш.
Японская компания Lofty, специализирующаяся на подушках, объявила о создании модели, способной определять глубину и спокойствие сна своего владельца. Принцип, лежащий в основе изделия, прост: чем крепче и лучше спит человек, тем меньше его голова ёрзает по подушке. За движениями головы следят специальные датчики, а необходимая информация выводится на встроенный жидкокристаллический дисплей. В частности, прислужница Морфея, сравнив параметры текущего сна с данными, полученными за прошлые ночи, может посоветовать вам подремать в течение дня либо поздравит с хорошим здоровым отдыхом. Чудо-подушка должна появиться на прилавках магазинов в сентябре и будет стоить около четырехсот долларов. — Е.А.
Проснувшись наутро «после вчерашнего» и держась руками за раскалывающуюся голову, многие нередко задаются вопросом: «Почему же так плохо? Вроде и выпили-то всего ничего»… а мозг, как его ни подстегивай, отказывается сообщать, сколько же было потреблено на самом деле. Казалось бы, ситуация безнадежная, однако научно-технический прогресс нашел выход и из этого тупика (по крайней мере, в отношении бутылочного пива). В ряде интернет-магазинов недавно появилась открывалка Bottle Spy, которая умеет подсчитывать количество откупоренных ею бутылок (результат выводится на небольшой жидкокристаллический дисплей). Для обнуления цифр, скажем, перед началом нового марафона предусмотрена столь милая сердцу компьютерщика кнопка Reset. — Е.А.
НОВОСТИ: Наука полного уничтожения
В 2001 году американский разведывательный самолет чиркнул по китайскому истребителю, пытавшемуся его «арестовать», и пришлось делать вынужденную посадку на одном из островов КНР. У экипажа самолета не было средств для быстрого и полного уничтожения информации на магнитных носителях бортовых компьютеров, так что, поработав над восстановлением аварийно стертых данных и впопыхах оставленных фрагментов, китайцы смогли получить ценную информацию о шпионской деятельности США.
После этого инцидента Пентагон и американские спецслужбы поручили ученым разработать компактное средство для быстрого и эффективного уничтожения данных на жестких дисках и других магнитных носителях. И вот исследователи Технологического института Джорджии (Gatech) в Атланте, работавшие совместно с корпорацией военно-промышленного комплекса L-3 Communications, сообщили о создании рабочего прототипа такой аппаратуры.
На выполнение заказа потребовалось три года, поскольку условия задачи оказались весьма нетривиальными. Полное уничтожение информации на жестком диске с помощью стандартных средств многократной перезаписи обычно занимает несколько часов. И даже после этого противник, располагающий соответствующим оборудованием и временем, имеет возможность с помощью технологий сверхчувствительного магнитного сканирования восстановить по крайней мере часть исходной информации. Поэтому требовалось отыскать метод для не только гарантированного, но и очень быстрого уничтожения данных, когда речь идет о минутах, а не о часах.
В течение первого года исследований инженеры перепробовали самые разные способы «убийства» не только данных, но и самих физических носителей информации — от сжигания дисков в миниатюрных термитных печах и микроволновках до уничтожения под прессом или в контейнере с агрессивными химикатами. Большинство методов оказались непригодными. Либо они были слишком опасны для применения на борту, либо сохранялась вероятность восстановления данных при тщательном анализе остатков.
В итоге наилучшей и чуть ли не единственно подходящей технологией был признан сильный постоянный магнит. Подобного рода инструмент, вообще говоря, применяют для стирания данных начиная с тех пор, как появились первые магнитные носители информации. Проблема лишь в том, что все портативные и коммерчески доступные магниты слишком слабы, а если магнит действительно хорош, то он чересчур тяжел для размещения на борту самолета. Поэтому исследователи Гатеха сосредоточили усилия на создании сверхмощных и сравнительно компактных магнитов, способных своим полем «пробивать» металлический корпус жестких дисков и за один проход уничтожать всю информацию, записанную на пластинах. Для таких супермагнитов был подобран специальный материал — неодимовый бор-железный сплав с особыми наконечниками на полюсах, изготовленными по хитрому рецепту на основе кобальта.
По свидетельству разработчиков, сила созданного ими магнита сравнима с медицинскими установками ЯМР-сканирования, однако по габаритам и массе (около 60 кг) даже установка-прототип вполне может быть размещена на борту самолета или другого транспортного средства. В соответствии с требованиями заказчика аппарат работает автономно от бортовых энергосистем и оснащен средствами, предотвращающими случайное стирание данных. Проверка и подтверждение гарантированно полного уничтожения информации на носителях осуществлялись с помощью магнитно-силового микроскопа. Эта технология сканирования, использующаяся в новейших методах восстановления стертых данных, позволяет выявлять на поверхности мельчайшие намагниченные домены с регулярной структурой, свидетельствующей об остатках записи. После обработки супермагнитом на поверхности носителя остаются лишь случайным образом перемешанные домены.
Разработчики Гатеха предполагают, что их аппарат может найти и коммерческое применение — в банках, корпорациях и организациях, нуждающихся в быстрой и надежной зачистке магнитных носителей (а уж в специфических условиях российского бизнеса эта система наверняка придется ко двору).
НОВОСТИ: Новые глаза и аргументы полиции
В советские времена была популярна шутка-вопрос о том, почему памятник главному чекисту страны Ф. Э. Дзержинскому на Лубянке повернут к зданию КГБ не лицом, а задом. Правильный ответ гласил, что статуя «железного Феликса» всем своим видом должна говорить народу: «За них-то я спокоен, а вот за вами сволочами глаз да глаз нужен»…
Как известно, чем выше в государстве уровень тоталитаризма, тем больше безопасность принято связывать с эффективностью действий полиции. А поскольку эффективность эта должна опираться на осведомленность, то полицейским мозгам вполне естественной кажется идея о том, что постоянный и тотальный присмотр за всеми обеспечивает максимальную безопасность. История ГДР, где каждый пятый считался стукачом органов, вроде бы должна была показать, что дело не только в количестве глаз и осведомителей, однако кого учит история?..
Полиция Лос-Анджелеса в июне приступила к испытаниям беспилотных летательных аппаратов (БПЛА) в качестве удобного и относительно недорогого средства разведки и «виртуального патрулирования» местности. Эти аппараты, часто именуемые дронами, могут выполнять самые разные функции и ныне считаются одним из перспективнейших хайтек-направлений военно-промышленного комплекса, поскольку в равной степени интересны и армии, и полиции. Шерифам Лос-Анджелеса, в частности, приглянулся небольшой дрон SkySeer, изготовляемый флоридской компанией Octatron. Складной самолетик больше похож на авиамодель — размах крыльев около 2 м, вес меньше 2,5 кг. Однако бортовая аппаратура делает SkySeer весьма продвинутым радиоуправляемым разведчиком.
Система видеонаблюдения способна работать и ночью, и днем, камера по команде изменяет угол съемки в вертикальной и горизонтальной плоскостях, а длительность полета аппарата составляет 70 минут при скорости до 50 км/час. Полицейским особенно понравилась конструкция дрона: он за несколько минут легко собирается из частей, умещающихся в тубус размером меньше сумки для гольфа.
Представляя технологическую новинку публике, руководство полиции напирало на добрые дела, которые мог бы решать дрон, — например, искать пропавших детей и заблудившихся путешественников или наблюдать за зоной пожара. Но эти благородные миссии быстро отошли на задний план, когда среди преимуществ SkySeer были упомянуты его практически полная бесшумность в полете и незаметность для находящихся на земле. Впрочем, и здесь было подчеркнуто, что эти особенности окажутся очень полезны при поиске преступников, пытающихся скрыться в лабиринте улиц или прячущихся на крышах зданий.
Какие бы миссии ни планировались полицией для самолетов-разведчиков, уже понятно, что дроны окажутся существенным подспорьем в воздушном наблюдении, которое сейчас возложено на вертолеты. Управление полиции Лос-Анджелеса, в частности, располагает сегодня восемнадцатью вертолетами стоимостью от 3 до 5 млн. долларов каждый. Потребность в поддержке с воздуха так высока, что пилоты вертолетов не знают ни сна ни покоя. И вот теперь появляются дроны SkySeer по цене 25—30 тысяч за штуку, способные передавать картинку с места событий непосредственно на ноутбук станции управления. Причем летающий робот может двигаться не только по командам оператора, но и автономно, следуя по любому маршруту, заранее заданному с помощью системы GPS.
Хотя дело это совсем новое, очевидно, что беспилотные летательные аппараты понемногу начинают становиться нормой в работе городской полиции США. Очередное известие из этого ряда порождает всплеск протестов правозащитников, которые усматривают в БПЛА, парящих возле домов, посягательство на тайну личной жизни граждан. Для ответа на эти протесты полиция изобрела оригинальный контраргумент: да, дроны действительно предназначены для несанкционированного судом наблюдения, однако вряд ли стоит по этому поводу волноваться, поскольку многочисленные камеры слежения и так уже установлены буквально на каждом столбе.
Короче говоря, аргумент в сущности тот же самый, что и у приснопамятной статуи Железного Феликса с Лубянки.
ТЕМА НОМЕРА: Археология СМИ в реальном времени
Раскопки данных (data mining) — модная и пока еще редкая специализация на рынке инфотехнологий. Екатерина Солнцева, заместитель гендиректора фирмы «Медиалогия», помогла мне ознакомиться со всеми этапами работы системы раскопки текстов (text mining), созданной этой компанией.
Сегодня наши любимые СМИ предстанут перед читателем в препарированном виде, в каком они кладутся на стол руководителям крупных корпораций и высшим государственным чинам.
Извлечение информации из средств массовой информации — дело тонкое, утомительное и крайне дорогое. Есть в этом какая-то нехорошая ирония — но факт остается фактом. До недавнего времени заниматься этим делом всерьез (во всяком случае, в России) могли позволить себе только самые мощные спецслужбы и самые важные из госорганов [Это всего лишь догадка. Откуда нам точно знать, что они там себе позволяют?] (что почти одно и то же). Причина проста: штат аналитиков — это всегда штучный, уникальный инструмент для решения штучных же задач (притом требующих гигантской и непрерывной черновой работы по сбору данных). Несмотря на то что прогресс компьютерных технологий уже много лет идет «муровскими» темпами, только в последние годы появились реальные возможности для демократизации в области массового мониторинга источников — весьма, впрочем, умеренной. Благодаря ей услуги по содержательному и представительному мониторингу СМИ доступны теперь и крупным корпорациям, и даже политическим партиям.
Для чего им это нужно? Деннис Кахилл (Dennis Cahill), вице-президент компании Factiva (www.factiva.com), активно ведущей открытую компьютерную разработку информационных залежей СМИ, считает, что без текст-майнинга бизнес не сможет правильно учитывать значимые изменения в деловой, социальной, правовой сфере. Те самые «тренды» и «паттерны», которые желательно заметить вовремя и успеть среагировать.
Что-то входит в моду, что-то выходит из моды. Над кем-то сгущаются тучи, над кем-то — рассеиваются. Обо всем этом можно узнать, тщательно анализируя общедоступные источники. Люди, занимающиеся фундаментальным анализом рынков — отслеживанием и изучением всех сообщений, имеющих отношение к поведению интересующих их акций или валют, — ведут такой анализ давным-давно, очень успешно и без всякого текст-майнинга. Но можно сказать и иначе — они ведут текст-майнинг собственными подручными средствами; почему бы не (про)дать им (и другим желающим) современный экскаватор? Главное — чтобы он не разнес на куски хрупкие черепки фактов, которые представляют основную ценность для инфоархеолога современности [Термин «история современности» стал популярным после того, как его использовал в названии своей книги Эрнст Генри, замечательный историк, публицист, а главное, разведчик. Текст-майнинг в этом смысле — археология современности, раскопки, ведущиеся одновременно с захоронением в бесчисленных файлах только что полученной информации.].
Кахилл приводит пример с ожирением (obesity) — точнее, со словом «ожирение», которое в конце 2003 года стало все чаще мелькать в печати и блогах. К середине 2004 года проблема obesity стала трендом, а гиганты фастфуда, которых обвиняли в провоцировании этого серьезного недуга, столкнулись с проблемами. А столкновения, утверждает Кахилл, можно было бы избежать, вовремя прибегнув к текст-майнингу. Достаточно было отследить графики упоминаний слова «ожирение» в связке с упоминанием крупнейших сетей быстрой еды. Сделав это, сети бы поняли, на какую из них в ближайшее время обрушится удар общественного мнения — и успели бы перестроиться в духе времени.
Однако такие задачи — лишь первая ступень посвящения для профессионалов истинного текст-майнинга. Уровень серьезных систем сегодня позволяет компаниям браться за решение более деликатных вопросов.
Управление репутацией. Можно отследить, какова тональность упоминаний данной компании в СМИ, как она меняется со временем, и попытаться понять — с чем связаны эти изменения.
Конкурентный анализ. Из сообщений СМИ можно вытрясти более или менее правдоподобную картину расстановки сил в той или иной отрасли. Очень грубая модель такова — о ком больше и лучше говорят, тот и более успешен. Чтобы из этой грубой модели сделать сколько-нибудь рабочую, нужны очень серьезные усилия — ибо упоминания надо уметь классифицировать, рейтинговать по массе параметров, увязывать друг с другом и с целями исследования. Как ни странно, сегодня такой уровень уже достигнут — хотя полностью автоматизировать подобные вещи вряд ли возможно даже в принципе.
Бизнес-разведка. Что тут есть от настоящей разведки — судить не берусь. Очевидно, однако, что — в сочетании с перечисленными выше запросами — разумная технология связывания ключевых упоминаний в цепочки может давать отличный материал для размышлений. Тем более что оригиналы статей и даже записи телепередач доступны мгновенно — но тут я уже перехожу к рассказу о подробностях, замеченных при личных наблюдениях за увлекательным процессом текстовых раскопок в офисе «Медиалогии».
В текущую работу по мониторингу СМИ и поддержанию базы знаний здесь вовлечено около ста человек. Работа ведется круглосуточно, причем ночная смена, как правило, самая загруженная — в это время обрабатываются материалы изданий, которые придут к читателям утром. Обработка и анализ идут в несколько этапов.
В сыром виде на вход системы непрерывно приходят по подписке огромное количество СМИ, а также собранные роботами интернет-ресурсы свободного доступа. Анализируются только российские СМИ (зарубежные, которых около трехсот, просто отправляются в постоянно обновляемый архив), в том числе транскрипты шести основных телеканалов. Самые большие базы отраслевых источников — по финансам и по ИТ. Все это сортируется, из полученных файлов извлекается текст и отправляется на дальнейшую обработку (начиная с этого момента, pdf’ы исходных материалов прессы, а также видеоматериалы привязаны к текстам ссылками).
Обработка, необходимая для включения текстов в структурированную базу знаний, начинается с выделения объектов. Объект — это то, о чем можно спрашивать систему. Чаще всего — персона или компания. Иногда — страна (Украина, например).
Выделение объектов в тексте проводит программа, она же анализирует уровень их упоминаемости. Если обнаруживается активно упоминаемый объект, которого нет в картотеке, он направляется аналитику, который составляет досье и добавляет объект в изучаемую базу. Объекты бывают трех типов — A, B, C. Сейчас в картотеке 25 тысяч объектов. Из них к типу B отнесены 6000, к А — 2000, остальные имеют тип С.
Объекты типа С — это, как считают исследователи, практически всё, что вообще есть в публичной структуре информационного поля России. С учетом того, что крупнейших компаний у нас, согласно известным рейтингам, не более четырехсот, а «активно упоминаемых» и того меньше — звучит правдоподобно. Обработка объектов этого типа в текстах ограничивается их выделением.
Каждое упоминание объекта типа В получает формальное описание — набор из пятнадцати параметров-атрибутов. Примеры атрибутов: роль этого объекта в сообщении; позитивно, негативно или нейтрально упомянут объект в текущем тексте; рубрика, в которой встретился данный текст (например, попадание в рубрику «Право» — вполне определенный сигнал); жанр; наличие прямой речи; наличие фотографии.
Для объектов типа А определяются еще и связи — их 26 видов (скажем, «партнер», «конкурент», «руководитель», «контакт», «упоминает» и т. д.). Эти объекты — публичные политики, крупнейшие компании, политические партии и прочее, что постоянно на слуху и на виду.
Обработка категорий А и В идет в основном вручную, хотя большая часть сопутствующей технической работы автоматизирована (доверить программе оценку контекста по принципу позитив/негатив нельзя, а локализацию прямой речи и сопутствующей фотографии — обычно можно). «Прямая речь в документе бывает очень важна, — говорит Катя Солнцева. — Если хочешь посмотреть, как развивается компания, берешь прямую речь руководителя и сравниваешь: что он обещал год назад и что обещает сегодня. Наличие фотографии полезно для исследований, в которых оценивается качество репутации».
Обработанная таким образом информация заносится в базу знаний (этот драгоценный ресурс хранится на защищенных всеми возможными способами серверах Data Fort) и после этого начинает учитываться в ответах на запросы.
В этих ответах рассчитывается также индекс информационного благоприятствования (ИИБ). Он учитывает массу факторов, связанных с упоминанием объекта: скажем, его роль в сообщении (уникален или перечислен в списке из десяти других), тональность оценки (позитив, негатив или нейтральность) и т. п. Формула расчета ИИБ сложна, как сложна и технология оценок, классификации подобных объектов с многочисленными атрибутами и — очень важно! — связями. Технология, используемая в системе, была разработана с участием известного математика, специалиста по классификации и статистическому анализу Юрия Благовещенского.
Именно благодаря этой технологии — надо подчеркнуть, что она не сводится к алгоритмам, заложенным в систему; выбор параметров классификации, методика их присвоения объектам, лингвистический анализ — все это тоже в конечном счете элементы технологии текст-майнинга — появляется возможность очень быстро получать ответы на сложные запросы к базе.
Для демонстрационного сеанса я попросил Катю поработать с давно знакомым «объектом», часто упоминаемым и на наших страницах — Российской академией наук.
Первым шагом был простой запрос списка публикаций, упоминающих РАН, с начала этого года (рис. 1). Их оказалось около пяти тысяч — включая и телесюжеты, которые можно было немедленно просмотреть. После этого мы заказали график динамики публикаций за тот же период, с разбивкой по неделям (рис. 2).
Полученная картинка выглядела не очень выразительно. Пики и спады были выражены нечетко, ясного представления о динамике общественного внимания к делам Академии они не давали. Вот тут мы и воспользовались одной из более сложных черт системы — запросили график числа публикаций, в которых Академия фигурировала в качестве главного объекта. Полученный по такому запросу рис. 3 был заметно более информативным. Как нетрудно заметить, он демонстрирует весьма четкие узкие пики, явно указывающие на серьезные события. Исследовать их все возможности не было, но щелкнув мышкой по самому позднему (он же самый высокий), мы взглянули на несколько появившихся на экране текстов, и сразу получили объяснение этому всплеску публикаций — в этот период прошли выборы новых академиков. С этим, как явствовало из тех же публикаций, была связана любопытная интрига с попыткой выдвижения в академики крупных бизнесменов и чиновников, чуть не приведшая к большому скандалу (Сергей Степашин, например, вежливо, но твердо отказался баллотироваться).
Следующий запрос — по каким рубрикам распределены упоминания Академии. И вот здесь нас поджидала маленькая сенсация. Полученную диаграмму вы видите на рис. 4. Оказывается, Академия наук чаще всего упоминается в наших СМИ в неведомых рубриках с собирательным названием «Прочее»! Там она фигурирует вдвое чаще, чем во второй по частоте категории — «Наука и образование», следующий по частоте контекст — «Власть», а процент упоминаний Академии как главного объекта статей по высоким технологиям находится уже где-то на уровне случайных колебаний.
Катю Солнцеву результат удивил — никогда еще запрос ни по одному значимому объекту не давал такой статистики. Получается, что СМИ чаще всего пишут об Академии по каким-то нечетким, малозначительным поводам — и, что хуже всего, никак не связанным с ее основными миссиями. Разумеется, полученный результат надо еще уточнять и более детально анализировать. Но сигнал, тем не менее, весьма отчетливый: общество не очень понимает, чем занимается Академия, и далеко не всегда связывает ее деятельность с вопросами науки и образования.
Следующий запрос — расклад по СМИ, упоминающим Академию (рис. 5). На первом месте — официоз (правительственная «Российская газета», «Парламентская газета»). Ведущие деловые издания пишут об Академии очень мало — скажем, «Ведомости» вообще не попали в список. Тест на позитив-негатив по тем же центральным газетам дал заметный перекос в сторону негатива (рис. 6) — но это вряд ли показательно, так как общее число таких сообщений очень мало — основная масса упоминаний оказалась просто нейтральной.
Ну а дальше мы попытались применить к собранной по академии статистике запросы как раз «разведывательного» характера. А именно, выбрав в качестве основного объекта Юрия Осипова [Вот пишу и думаю — а ведь и этот текст попадет в ту же самую базу, и тоже каким-то образом изменит статистику упоминаний и самой Академии, и ее президента…], Президента РАН, провели поиск по его «связям» с другими объектами — выстраивая при этом цепочки из двух промежуточных звеньев. Результат показан на рис. 7.
Очевидная интерпретация в данном случае невозможна — но характер получаемой информации ясен. Вряд ли более тщательный анализ именно этих цепочек раскроет какие-нибудь страшные тайны Академии наук. Не исключено, впрочем, что персонаж шпионских романов Ле Карре немедленно засел бы за просмотр всех документов, по которым выстроены отраженные на схеме связи. Мы же с вами можем просто обратить внимание на крайнюю узость круга людей, общение с которыми Президента Академии замечают СМИ.
Если бы речь шла о рыночной конкуренции, можно было бы использовать и другие типы запросов по связям: поиск совместных упоминаний, скажем, конкурента и его клиентов в конфликтном контексте, объявления о проектах и результатах их реализации, оценку «уровня бесконфликтности», в том числе в связи с госорганами, и т. д. В случае Академии все это неинтересно и неприменимо — хотя бы потому, что конкурентов у РАН нет.
Вот так сработал текст-майнинг на этом необычном (в «Медиалогии» не помнят, чтобы научные учреждения интересовались своим обликом в СМИ или динамикой репутации) запросе.
Предупреждая саркастические письма прожженных наших читателей, сообщаю — да, я в курсе, что за скромные тысячи рублей можно купить у добрых людей базы данных банковских проводок, таможенных операций по любой компании страны и другие исчерпывающие, казалось бы, «разведданные». По этому поводу можно сделать два комментария. Во-первых, использование нелегальных источников информации дает, мягко говоря, не только преимущества. Во-вторых — персонализированных репутационных исследований нужной вам компании, сделанных по результатам вот такого интеллектуального мониторинга СМИ, у пиратов заведомо нет.
Впрочем, обсуждать, что дает и чего не дает текст-майнинг «на самом деле» здесь бессмысленно. В России пара сотен компаний, общественных и госорганизаций использует эти технологии — это факт. Для чего это им нужно, насколько им это полезно — вопрос слишком тонкий, ибо одно из главных условий, которые должны быть обеспечены пользователям таких систем — секретность содержания их запросов.
О текст-майнинге приятнее всего рассуждать в абстрактных терминах и в будущем времени. Например, ясно, что здесь огромное поле для новых технологий поиска, взрывного роста которых мы все еще ждем. Ясно также, что развитие таких систем будет продолжаться, но потребует серьезных инвестиций (вышеупомянутая Factiva принадлежит сразу двум мощнейшим новостным агентствам, Reuters и Dow Jones; «Медиалогия» — проект нашего ИТ-гиганта IBS). Любопытно было бы и разобраться подробнее, что в таком контексте вкладывается (формально) в такие понятия как «факт», «достоверность».
Но при знакомстве с используемой на практике системой текст-майнинга лично мне интереснее всего было убедиться, что никакие иллюзии насчет точности и качества «машинного» анализа текстов в систему не закладываются. Без сотни аналитиков ничего работать не будет — но без всей этой сложной программной лингвистическо-статистической кухни нужны были бы не сотни, а тысячи, а интервалы между запросами и ответами исчислялись бы не минутами, а неделями. Именно это, по-видимому, и обеспечивает сегодня существующую узкую рыночную нишу для текст-майнинга. Но она несомненно будет расти. Все больше говорят о потенциале «тегового» индексирования информации, и оно может радикально удешевить такие разработки. Впрочем, «персональной разведслужбы» пока не видно даже на горизонте.
ТЕМА НОМЕРА: Экспоненты в тени и на свету
О феномене возникновения в нашей стране в последние годы множества быстрорастущих (радикально обгоняющих по скорости развития рынок в целом) компаний мы рассказывали в материалах «Зоопарк профессора Юданова» («КТ» #636) и «Деньги нужно перемешивать» («КТ» #640). Сегодня, в продолжение этой интригующей темы, — дайджест личных впечатлений от обсуждения этого феномена на заседании Никитского клуба .
Никитский клуб, возглавляемый Сергеем Капицей, возник в июне 2000 года. По декларируемым задачам («…создать авторитетный форум ответственных профессионалов для обмена мнениями по важнейшим вопросам жизни общества, оказывать влияние на формирование текущей политики страны посредством непредвзятого и независимого анализа ситуации…») он напоминает Римский клуб, только с ориентацией не на глобальные, а на российские проблемы и вызовы. На недавнем, последнем в этом сезоне совместном заседании клуба и Фондовой биржи ММВБ под девизом «Растущие компании и фондовый рынок» речь шла о создании «Сектора инновационных и растущих компаний ФБ ММВБ».
Заседание вели Сергей Капица и Александр Потемкин (президент ММВБ), проект представлял заместитель гендиректора ММВБ Геннадий Марголит. Однако обсуждение самого проекта было только частью дискуссии, причем частью, интересной в основном профессионалам фондового рынка. На мой не слишком искушенный в таких вопросах взгляд, обсуждение свелось к тому, создавать ли для работы с такими компаниями именно сектор или какое-то менее автономное образование на бирже. Зато другие направления дискуссии были значительно ближе к нашим обычным, технарско-инновационным интересам.
Почему среди быстрорастущих компаний так мало инновационных и как сделать, чтобы они там были? Надо ли вообще к этому стремиться? Если да, то как? Все эти популярные — до полной риторичности! — вопросы обыгрывались участниками дискуссии совершенно по-разному. Внутреннего рынка для таких компаний нет, и это очень плохо. Внешний рынок — весь мир! — безусловно, есть. Но попасть туда, не становясь тоже внешней (по отношению к нашей стране) компанией, крайне трудно — и это опять-таки плохо. На фоне таких констатаций замечательно выступил Борис Салтыков, президент Фонда международного сотрудничества, в прошлом министр науки РФ. По его словам, инновационных компаний у нас все-таки много (хотя уже раза в два меньше тех десятков тысяч, что насчитывала статистика в конце 90-х, а из них многие не компании вовсе, а одно название). Их много, они работают — но не хотят расти! Ученые и инженеры, которые их создают, обычно довольствуются достижением более или менее пристойного уровня жизни для себя и своих сотрудников. Мы никогда не узнаем, способны ли эти фирмы превратиться в гуглы, интелы и майкрософты — потому что они совершенно сознательно отказываются от любых шагов в этом направлении. Обращаю внимание читателей на параллель этого наблюдения Салтыкова с наблюдениями Анатолия Шалыто («КТ» #640) о потере студентами интереса к исследовательской работе.
На том же заседании Юрий Аммосов, завотделом частно-государственного партнерства МЭРТ, сделал сенсационное на тот момент сообщение: принято решение о создании Российской венчурной компании. Это должно произойти до конца 2006 года, капитал составит 15 млрд. рублей, которые будут инвестироваться в десяток (тоже новых) венчурных фондов. А уж эти фонды станут финансировать технологические стартапы, на паритетных началах с частным бизнесом (то есть предстоит привлечь еще столько же частных денег).
Несомненно, реализация этой программы может оказаться серьезным событием, которое изменит ситуацию и с инновационным бизнесом, и экономическую ситуацию в целом — так считают многие наблюдатели. Но пока российские технологические стартапы не попадут в «зоопарк экспоненциальных компаний», пока их стоимость не начнет расти быстрее стоимости земли, недвижимости и других скучных источников хороших денег — восторг мы выражать погодим. Здесь как с квантовым компьютером — как мне недавно объяснили, работает он на самом деле или нет, можно установить только по факту получения результата.