Задания для самостоятельного исследования
1. Подготовить доклад по перспективам развития информационного общества XXI тысячелетия.
2. Подготовить доклад по Интернет-лингвистике. Оценить и спрогнозировать влияние Интернет-лингвистики на общее состояние современной и будущей лингвистической науки.
3. Подготовить доклад по модели представления современного переводческого процесса «автор – переводчик (человек) – переводчик (компьютерная программа) – читатель».
4. Перевести на английский язык отрывок из произведения А.П. Чехова «За двумя зайцами погонишься, ни одного не поймаешь»[12], используя программы машинного и автоматизированного перевода текста.
5. Перевести с английского языка на русский язык отрывок из произведения О. Henry «Aristocracy Versus Hash», [13]используя программы машинного и автоматизированного перевода текста.
Рекомендованная литература
1.
2.
3.
4.
5.
6.
7.
Introduction. – University of Ottawa Press, 2002. – 185 p. Retrieved from http://books.google.com/books7id4y29-mc6dOOC.
8. Encyclopaedia of Translation Studies / Ed. M. Baker. – London: Routledge, 2004. – 654p.
9.
10. An Introduction to CAT Tools (Translation Memory). – Keypot corporation. Retrieved from URL: http://www.horsefrog.com/japanese-translator-patent/ mod/resource/view.php?id= 108.
Глава 3
ПОИСК И ПУБЛИКАЦИЯ ИНФОРМАЦИИ В ИНТЕРНЕТЕ
В Интернете с каждым днём скапливается всё больше информации, когда-либо созданной и вновь создаваемой людьми. Равнодоступность большей части информации в Интернете уравнивает возможности доступа к этой информации как обычных пользователей Интернета и журналистов локальных СМИ, так и сотрудников мировых информационных агентств.
Благодаря Интернету перед каждым человеком ежедневно и даже ежесекундно открывается доступ к многомиллионной аудитории, которой он может передать свой информационный материал, полученный, например, с помощью обычного мобильного телефона с диктофоном и встроенной фотокамерой. Следовательно, уровень монополизации деятельности по распространению информации также снижается благодаря Интернету.
До недавнего времени ограничения в прямой коммуникации между людьми, порождаемые пространством и временем, во многом определяли потребность людей в услугах журналистов. По мере роста общего количества пользователей Интернета, а среди них – числа владеющих английским языком, эти ограничения всё в большей степени снимаются, что закономерно ведёт к уменьшению спроса на услуги журналистов. Одновременно с этим растёт объем «сырой» информации, доступной каждому отдельному пользователю Интернета, что актуализирует проблему её отбора и редактирования. Последнее всегда входило в перечень функций журналистики, но с ростом числа пользователей Интернета эффективный информационный поиск начинает приобретать всё большую значимость не только в журналистской деятельности, но и в других разнообразных сферах общественной деятельности.
Таким образом, информационный поиск – это процесс поиска неструктурированной документальной информации.
Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов), которые посвящены заданной теме (предмету) и удовлетворяют заранее определенному условию поиска (запросу), а также содержат необходимые (соответствующие информационной потребности) факты, сведения и данные.
Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам.
Комплекс программ, предназначенных для информационного поиска, называется поисковой машиной. Обычно является частью поисковой системы – автоматизированного программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации в Интернете. Самая известная поисковая система в мире – это Google, самая популярная в России – Яндекс, а одной из самых старых поисковых систем является Yahoo. Как уже было отмечено ранее, в архитектуре поисковой системы можно выделить
Для того, чтобы найти в Интернете требуемую информацию, необходимо знать либо адрес её местоположения (например, адрес
Сегодня существует достаточно большое количество методов информационного поиска в Интернете и через Интернет. В каждом конкретном случае успешность поиска определяется знаниями возможных методов и навыками владения ими, знанием этнических языков, на которых эта информация может быть представлена, либо нашими социальными связями.
Выделяется 4-е этапа поиска информации.
1. определение (уточнение) информационной потребности и формулировка информационного запроса;
2. определение совокупности возможных держателей информационных массивов (источников);
3. извлечение информации из выявленных информационных массивов;
4. ознакомление с полученной информацией и оценка результатов поиска.
Поисковые запросы бывают
объект поиска конкретно не указывается.
Поисковые запросы также делятся в зависимости от требуемой системы поиска.
Чтобы спланировать поиск, следует, прежде всего, определить объект поиска, сформулировать какую информацию необходимо найти. Если однозначно ответить на этот вопрос не представляется возможным, то поиск следует разделить на задачи с разными объектами. В планировании поиска также следует определить соотношение видов информации в поисковой задаче.
Например, если необходимо представить какую-то компанию, то полезными могут стать не только стандартные характеристики фирмы (данные об обороте, клиентах и пр.), но и сведения о связях ее первых лиц. И наоборот – физическое лицо можно охарактеризовать через компанию, которой оно владеет или в которой работает.
Надо определиться и с возможными форматами, файлов в которых может содержаться требуемая информация. Это может быть html-страница, текстовый документ в форматах txt, rtf, odt, doc или docx, документ pdf, презентация в форматах odp, ppt или pptx, электронная таблица в форматах ods, xls или xlsx, аудио в формате mp3, flash-ролик формата swf, видео в формате avi и т. д.
Важно отметить, что на первый взгляд поиск в интернете мало чем отличается от обычного информационного поиска, например, от обработки
И в заключении следует добавить, что область поиска – это миллиарды страниц, по несколько килобайт и более каждая. Около десятка миллионов страниц добавляется ежедневно и столько же обновляется. Все это представлено различными цифровыми форматами. К сожалению, даже современные технологии и ресурсы, имеющиеся в распоряжении лидеров рынка поисковых услуг в Интернете не позволяют им обрабатывать все это многообразие «на лету» и в полной объеме.
Принципиально важным моментом функционирования поисковой машины в Интернете является является тот факт, что поиск и отбор информации осуществляется на базе формирования запросов в собственное информационное хранилище – баз данных, называемых индексами, где хранятся досье на все известные машине сайты. Эти базы данных периодически обновляются.
Иными словами, поисковая машина работает не с оригиналом, а с проекцией области допустимых значений поиска. Поэтому последние изменения в Интернете могут отразиться в результатах поиска только после того, как соответствующие страницы будут проиндексированы – добавлены в индекс поисковой системы. Таким образом, поисковая система Интернета в первом приближении состоит из поисковой машины, базы данных или индекса (index) и точек входа в эту систему. Сама поисковая машина также является совокупностью приложений, позволяющих делать работу эффективно и быстро.
Перечислим компоненты поисковой машины.
1.
2.
•
•
Помимо разбора самого текста запроса, поисковая машина может также учитывать
Поисковым машинам иногда приходится анализировать, когда имели место события, описываемые на странице. Ведь информация постоянно устаревает, а пользователю нужны в первую очередь ссылки на самые последние новости, актуальные прогнозы и анонсы событий, которые еще не завершились или должны наступить в будущем. Понять, что актуальность страницы зависит от времени, и сопоставить ее с моментом выполнения запроса также требует от поисковой машины изрядной доли интеллекта.
Далее, поисковая машина ищет ближайший по смыслу ключевой запрос в индексе и формирует результаты, сортируя ссылки в порядке убывания их релевантности. Каждому ключевому запросу в индексе соответствует отдельный рейтинг страниц, релевантных ему. Не на каждое сочетание букв и цифр система заводит новый ключевой запрос, а делает это на основе анализа частоты тех или иных пользовательских запросов.
Поисковая машина может также перемешивать в результатах поиска рейтинги из разных ключевых запросов, если посчитает, что пользователю нужно именно это. Разработчики поисковых систем затрачивают большие усилия, направленные на то, чтобы «очистить» результаты своей поисковой выдачи от разного рода информационного мусора, то
Поисковая машина при поддержке входящих в нее приложений (пауков и краулеров) постоянно сканирует Интернет на предмет появления новых и обновления существующих страниц, поскольку неактуальная информация ценится ниже.
Поисковая машина периодически обновляет ранжирование ресурсов по их релевантности ключевым запросам, поскольку в индексе постоянно появляются новые страницы. Этот процесс называют обновлением (updating) поисковой выдачи.
В силу огромных объемов информации, размещенной во всемирной паутине и ограниченности ресурсов самой поисковой системы, поисковая машина всегда старается загружать только самое (по ее мнению) необходимое. В ее арсенале имеются всевозможные фильтры, которые отсекают многое ненужное уже на этапе индексации или выкидывают спам из индекса по результатам обновления поисковой выдачи.
Современные поисковые системы в ходе анализа запроса стараются учитывать не только текст самого запроса, но и его окружение: контекст и предпочтения пользователя, о которых было сказано ранее, а также время запроса, регион и многое другое.
На релевантность конкретной страницы влияют не только внутренние ее параметры (структура, содержание), но и внешние параметры, такие как ссылки на страницу с других сайтов и поведение пользователя при ее просмотре.
Работа поисковых систем постоянно совершенствуется. Идеальная работа поисковой машины (для человека) возможна только в том случае, если все решения, касающиеся индексации и ранжирования будет принимать комиссия, состоящая из большого числа специалистов всех областей и направлений человеческой деятельности. Поскольку это нереально, то такую комиссию заменяют экспертные системы, эвристические алгоритмы поиска и прочие элементы искусственного интеллекта. Вероятно, работа всех этих подсистем также могла бы давать более адекватные результаты, если бы была возможность обрабатывать абсолютно все данные, имеющиеся в открытом доступе в интернете, но и это практически невозможно. Несовершенный искусственный интеллект и ограниченность ресурсов – две основные причины того, что результаты поисковой выдачи не всегда радуют пользователей, но все это корректируется временем. Сегодня работа наиболее известных и крупных поисковых систем таких, как Google, Yahoo, Bing, Baidu, Яндекс, Рамблер, Nigma вполне соответствует потребностям и ожиданиям их пользователей.
Вопросы для самоконтроля
1. Что такое
2. Перечислить основные этапы информационного поиска. Дать краткую характеристику каждому этапу.
3. В чем заключаются принципиальные отличия поиска в Интернете от обычного информационного поиска?
4. Перечислить основные приложения, входящие в поисковую машину. Охарактеризовать каждое из приложений со своими примерами.
5. Какие факторы учитывает поисковая машина при отборе запрашиваемой пользователем информации?
6. Каковы наиболее популярные и эффективные поисковые системы в современном мире?
Задания для самостоятельного исследования
1. Используя три (по выбору) поисковые системы найти список самых популярных книг первой четверти нынешнего столетия. Сравнить результаты поиска.
2. Подготовить доклад по одной из поисковых систем современности.
3. Поиск по рубрикатору поисковой системы
• Бизнес и экономика;
• Общество и политика;
• Наука и образование;
• Компьютеры и связь;
• Справочники и ссылки;
• Дом и семья;
• Развлечения и отдых;
• Культура и искусство.
Поработайте с поисковыми каталогами российских и зарубежных медийных Интернет-порталов по интересующей тематике (используя возможности поиска по ключевым словам; расширенного поиска). Выявите сходства и различия в функционировании поисковых каталогов российских и зарубежных поисковых систем.
4. Пользуясь каталогом поисковой системы, найдите следующую информацию: