Цикл лекций по компьютерной лингвистике

Лекция
9.10.12—4.12.12
Историческое здание
1+
1415
0

Описание

Добавить в календарь

Компьютерная лингвистика существует уже полвека, но только теперь ее плодами готовы пользоваться миллиарды. Задачи автоматического анализа текста, такие как машинный перевод, распознавание речи, информационный поиск стали актуальными с момента появления компьютера, но только технологическая революция, связавшая нашу жизнь с Интернетом и многочисленными мобильными коммуникационными устройствами, сформировала всеобщую потребность в языковых технологиях.

Готова ли компьютерная лингвистика к этому вызову? В цикле лекций, организованной Институтом Лингвистики РГГУ и Политехническим музеем, о задачах компьютерной лингвистики расскажут те, кто уже достиг серьезных успехов в их решении: представители исследовательских и коммерческих проектов в области автоматической обработки естественного языка.


9 октября 19:00 Компьютерная лингвистика сегодня: от автоматической обработки текста до машинного понимания. Владимир Селегей.

За полвека существования компьютерная лингвистика переживала периоды больших надежд и таких же больших разочарований. Одним из усвоенных уроков стало понимание того, что компьютерная лингвистика и лингвистика теоретическая – это пусть очень тесно связанные, но все же разные науки. Пожалуй, нечто похожее произошло в области моделирования шахматной игры, когда выяснилось, что не всегда решать задачу на компьютере нужно так, как предположительно решает ее человек. Как будет развиваться компьютерная лингвистика, на что она способна сегодня, и что сможет завтра – об этом первая лекция цикла.

16 октября 19:00 Cистемы поиска в Интернете: как обрабатывается запрос пользователя. Андрей Плахов.

Современный интернет непредставим без поисковых систем (таких, как Яндекс, Google или Bing). За 20 с лишним лет их существования ожидания пользователей сильно возросли, и современный интернет-поиск требует гораздо более глубокого понимания естественных языков, нежели простой «поиск по ключевым словам». От поисковика требуется знание синонимов, устойчивых оборотов и онтологических рядов, умение понять запрос на одном естественном языке, но результаты найти на другом, и даже умение восстанавливать и учитывать желания пользователя, не указанные им в запросе явно.

23 октября 19:00 Национальный корпус Русского Языка: новые компьютерные ресурсы для лингвистов и нелингвистов. Екатерина Рахилина.

Современные технологии не только меняют старые лингвистические инструменты (превращая, например, традиционные словари в компьютерные базы данных), но и создают новые. К таким новым лингвистическим ресурсам относятся корпуса текстов. Первые, небольшие корпуса появились во второй половине прошлого века, потом им на смену пришли крупные национальные корпуса и произвели революцию в лингвистике. Постепенно корпуса войдут и в жизнь обычных людей. Эта лекция — о том, что такое корпус языка, национальный корпус, для чего они нам могут понадобиться и как пользоваться Национальным корпусом русского языка.

30 октября 19:00 IBM Watson: может ли компьютер отвечать на вопросы лучше человека. Екатерина Фроловичева и Артем Семенихин.

Суперкомпьютер IBM Watson стал результатом многолетней работы инженеров IBM с амбициозной целью — создание системы, способной соперничать с человеком в его возможности понимать и отвечать на вопросы, заданные на естественном языке. На сегодняшний день требования к точности и скорости нахождения ответов делают Watson уникальной среди других вопросно-ответных систем. Лекция будет посвящена тому, что предшествовало созданию системы, какие технологии были использованы при ее разработке, а также будут рассмотрены возможные области применения IBM Watson, включая задачи компьютерной лингвистики.

6 ноября 19:00 Компьютерный анализ жанра и характеристик автора текста. Сергей Шаров.

Определение тематики текста является достаточно простой задачей (так, например, Яндекс.Новости определяет сюжеты новостей по совпадению ключевых слов). В то же время жанр текста, характеристики его автора (например, пол, возраст) не зависят прямо от ключевых слов, поскольку текст в одном и том же жанре или одного и того же автора может быть написан на разные темы. В докладе рассматриваются подходы к автоматическому определению этих характеристик

13 ноября 19:00 Машинный перевод: успехи, неудачи, надежды. Леонид Иомдин.

История машинного перевода – перевода текстов с одного языка на другой с помощью компьютера – насчитывает без малого шестьдесят лет. За это время сменилось несколько поколений систем машинного перевода: от почти игрушечных моделей, переводивших текст слово за словом без учета контекста, ученые перешли к сложным системам, создавая правила, учитывающие тонкие смысловые оттенки переводимого текста. Наряду с системами перевода, основанными на правилах, стали создаваться «статистические» системы, обращающиеся к сверхбольшим корпусам параллельных текстов и находящие в них наилучшие эквиваленты для как можно более крупных фрагментов переводимого текста. В дополнение к системам перевода письменных текстов приобретают все более широкое распространение системы устного перевода, распознающие живую речь на входном языке и синтезирующие звучащий текст на выходном языке, мало отличающийся от человеческой речи. В истории машинного перевода были свои взлеты и падения: энтузиазм первопроходцев сменялся глубоким пессимизмом, когда видные специалисты приходили к убеждению, что задача машинного перевода не может быть решена в обозримом будущем. Сейчас машинный перевод переживает второе рождение: благодаря сочетанию различных методов и подходов качество перевода заметно улучшается и в эту область вовлекаются все новые языки.

20 ноября 19:00 Компьютерный анализ блогосферы как источник знаний о языке. Владимир Беликов

В написанном в конце прошлого века учебнике социолингвистики говорилось, что дневниковые записи «среднестатистических» носителей языка представляют для исследователей языка исключительно интересный, но труднодоступный материал. Широкое распространение блогосферы дало неограниченные возможности для компьютерного анализа подобных текстов. Лингвисты могут работать с повседневными записями, авторы которых легко классифицируются по важнейшим социолингвистическим параметрам. Теперь несложно получить объективные данные о языке мужчин и женщин, подростков и лиц старших возрастов в любом регионе, стала доступной статистика языковых изменений за последнее десятилетие.

27 ноября 19:00 Компьютерная лингвистика и семантическая паутина Интернета: откуда и куда мы идем.Владимир Хорошевский.

Лекция посвящена обсуждению 3-х тем: ретроспективному обзору методов и средств компьютерной лингвистики, которые в настоящее время активно используются при построении систем извлечения знаний из текстов; обсуждению концепции семантической паутины, которая постепенно трансформирует современный Интернет за счет формирования пространств знаний; сравнительному анализу существующих в данной области решений и результатов. Обсуждение сопровождается презентацией семантических порталов, функционирующих в Интернет, где уже используются системы обработки естественного языка.

4 декабря 19:00 Компьютер и словарь: незнакомцы, конкуренты, друзья? Борис Иомдин.

Когда-то толкования непонятных слов писали прямо на полях рукописей, потом стали собирать их в отдельные книги – словари, позже возникла целая наука лексикография. Лексикографы выписывали примеры употребления слов на карточки и составляли из них огромные картотеки – еще не так давно шкафы со словарными карточками стояли во всех коридорах Института русского языка. С появлением компьютеров карточки стали стремительно уходить в прошлое, а в последнее время они потянули за собой и словари. Все чаще люди просто смотрят значение слова в Википедии или вводят его в окошко онлайного машинного переводчика. Как повлиял компьютер на развитие лексикографии, ее материала, методов и практических результатов? Какие новые задачи ставит перед лексикографами развитие компьютеров и Интернета? И есть ли у словаря будущее в новую эпоху?