<ul><li>NLPseminar , Санкт-Петербург, 03 апреля 2010 года </li></ul><ul><li>Менеджер проектов </li></ul><ul><li>Т атьяна Л...
Извлечение фактов
Что это такое? Извлечение фактов <ul><ul><li>Извлечение структурированной информации из неструктурированного текста </li><...
Что извлекают? Извлечение фактов <ul><ul><li>События и детали: дата, время, место проведения, название </li></ul></ul><ul>...
Извлечение фактов Вице-губернатор Новосибирской области Владимир Анисимов объявил, что в 2009 году в области планиру...
автоматическая обработка текста Извлечение фактов <ul><ul><li>На входе: текст на естественном языке </li></ul></ul><ul><li...
автоматическая обработка текста Извлечение фактов <ul><li>Определение словарной формы слов и нормализация других объектов ...
автоматическая обработка текста Извлечение фактов <ul><ul><li>Где же семантика? </li></ul></ul>
Так вот, семантика… Извлечение фактов <ul><ul><li>Определение типов объектов: </li></ul></ul><ul><ul><ul><li>Иван Петров –...
Не_магия бывает: Извлечение фактов <ul><ul><li>основанная на машинном обучении (в 3х словах) </li></ul></ul><ul><ul><ul><...
Еще слайд про машинное обучение Извлечение фактов <ul><ul><li>не требует большого количества ручного труда по написанию п...
Последнее про машинное обучение Извлечение фактов <ul><ul><li>Почему же им все не пользуются? </li></ul></ul><ul><ul><li>Н...
Извлечение фактов в Яндексе
Что выделяется? Извлечение фактов в Яндексе <ul><ul><li>ФИО Яап де Хооп Схеффер </li></ul></ul><ul><ul><li>Компании Мини...
В проекте Яндекс.Новости <ul><ul><li>для геопривязки сюжета </li></ul></ul><ul><ul><li>для выделения компаний и персон в с...
В поиске Яндекса: ФИО Извлечение фактов в Яндексе
В проекте Яндекс.Адреса Извлечение фактов в Яндексе
Яндекс.Пресс-портреты Извлечение фактов в Яндексе <ul><ul><li>справочная информация о людях, упоминаемых в российских СМИ:...
http://news.yandex.ru/people/el1tsin_boris.html
Яндекс.Пресс-портреты технология
Как они составляются? Яндекс.Пресс-портреты <ul><ul><li>на основе текстов новостных сообщений, предоставляемых партнерами ...
Как они составляются? Яндекс.Пресс-портреты специализированный словарь парсер выделение объектов нормализация объектов ...
Выделение объектов: ФИО Яндекс.Пресс-портреты <ul><ul><li>использование словарной информации: пометы в словаре для имен, о...
Выделение ФИО - курьезы Яндекс.Пресс-портреты <ul><ul><li>Артемий Татьянович Лебедев </li></ul></ul><ul><ul><li>Вячеслав Н...
Выделение компаний, должностей… (неразрывные цепочки) Яндекс.Пресс-портреты <ul><ul><li>Выделение ключевых слов «директор»...
Как они составляются? Яндекс.Пресс-портреты словарь ключевых слов парсер выделение объектов нормализация объектов состав...
Инструменты: Словарь Яндекс.Пресс-портреты <ul><ul><li>Словарь ключевых слов слова и словосочетания, на основании которы...
Как они составляются? Яндекс.Пресс-портреты специализированный словарь парсер выделение объектов нормализация объектов ...
Инструменты: Томита-парсер Яндекс.Пресс-портреты <ul><ul><li>язык описания синтаксических структур </li></ul></ul><ul><ul>...
Инструменты: Томита-парсер Яндекс.Пресс-портреты <ul><ul><li>проверка согласования и выбора вершины (сопоставление текста ...
Пример Яндекс.Пресс-портреты <ul><li>один из трех основных акционеров владелец 50% акций </li></ul><ul><ul><li>PostOwner ...
курьезы (имена изменены) Яндекс.Пресс-портреты <ul><ul><li>...По словам Марии Ивановой, овцы новой породы - своеобразны...
Интерпретация и Факты Яндекс.Пресс-портреты <ul><ul><li>Факт состоит из какого-то набора полей, для каждого указывается: т...
Пример Яндекс.Пресс-портреты <ul><ul><li>один из трех основных акционеров владелец 50% акций </li></ul></ul><ul><ul><li>P...
Ситуации Яндекс.Пресс-портреты <ul><ul><li>Фрагментационный анализ (факт собирается из частей предложения, которые могут б...
Ситуации Яндекс.Пресс-портреты <ul><ul><li>Дата рождения ... Великий писатель, драматург, поэт Николай Гоголь родился 1 ап...
Ситуации: пример Яндекс.Пресс-портреты <ul><li>В четверг, 1 апреля, в Москве ушел из жизни депутат Госдумы от КПРФ Юрий ...
Ситуации Яндекс.Пресс-портреты <ul><ul><li>ЗГЛ = _умереть </li></ul></ul><ul><ul><li>{ СОСТАВ = (умереть|погибнуть|сконч...
Как они составляются? Яндекс.Пресс-портреты словарь ключевых слов парсер выделение объектов нормализация объектов состав...
нормализация Яндекс.Пресс-портреты <ul><ul><li>алгоритмом: </li></ul></ul><ul><ul><ul><li>сегодня - > 03.03.2010 </li></u...
Как они составляются? Яндекс.Пресс-портреты словарь ключевых слов парсер выделение объектов нормализация объектов состав...
отождествление объектов Яндекс.Пресс-портреты <ul><li>Два разных названия относятся могут обозначать один объект или нет? ...
отождествление фактов Яндекс.Пресс-портреты <ul><ul><li>Два факта из разных документов тождественны или нет? </li></ul></...
Как они составляются? Яндекс.Пресс-портреты словарь ключевых слов парсер выделение объектов нормализация объектов состав...
отождествление объектов : пример Яндекс.Пресс-портреты <ul><ul><li>Doc 1: …председатель правления Siemens Петер Лешер… ...
отождествление объектов Яндекс.Пресс-портреты <ul><ul><li>Самое сложное: </li></ul></ul><ul><ul><li>Леонид Меламед – АФК ...
объединение фактов в пресс-портрет Яндекс.Пресс-портреты <ul><ul><li>Факты объединяются в пресс-портреты по: </li></ul></u...
совсем не про лингвистику, но всем интересно Яндекс.Пресс-портреты <ul><ul><li>Как выбираются фотографии к пресс-портретам...
фотография Яндекс.Пресс-портреты <ul><li>Этот алгоритм работает очень хорошо! </li></ul>Почти всегда!
вместо заключения Яндекс.Пресс-портреты <ul><ul><li>Идеальный пресс-портрет это: </li></ul></ul><ul><ul><ul><li>полностью ...
где почитать? Яндекс.Пресс-портреты <ul><ul><li>Text Mining, Information and Fact Extraction Marie-Francine Moens (Kathol...
<ul><li>Менеджер проектов </li></ul><ul><li>[email_address] </li></ul><ul><li>Т атьяна Ландо </li></ul>
Спасибо за вопрос! Яндекс.Пресс-портреты <ul><ul><li>Все составляется абсолютно автоматически! </li></ul></ul>
of 53

PressPortrets

Published on: Mar 4, 2016
Published in: Education      
Source: www.slideshare.net


Transcripts - PressPortrets

  • 1. <ul><li>NLPseminar , Санкт-Петербург, 03 апреля 2010 года </li></ul><ul><li>Менеджер проектов </li></ul><ul><li>Т атьяна Ландо </li></ul>Автоматическое извлечение фактов из текста на примере сервиса Яндекс.Пресс-портреты
  • 2. Извлечение фактов
  • 3. Что это такое? Извлечение фактов <ul><ul><li>Извлечение структурированной информации из неструктурированного текста </li></ul></ul><ul><ul><ul><li>Выделение в тексте объектов </li></ul></ul></ul><ul><ul><ul><li>Приписывание объектам типов </li></ul></ul></ul><ul><ul><ul><li>Установление связей между объектами </li></ul></ul></ul><ul><ul><ul><li>Установление параметров объектов </li></ul></ul></ul><ul><ul><ul><li>Приписывание значений параметрам </li></ul></ul></ul>находиться Льва Толстого, 16 Яндекс Тип связи Объект 2 Объект 1
  • 4. Что извлекают? Извлечение фактов <ul><ul><li>События и детали: дата, время, место проведения, название </li></ul></ul><ul><ul><li>Мнения и отзывы: объект оценки и тональность </li></ul></ul><ul><ul><li>Контактные данные с веб-страниц: email, skype, телефон, факс, адрес, … </li></ul></ul><ul><ul><li>Объявления: объект, предлагаемое действие (покупка, продажа, …), … </li></ul></ul><ul><ul><li>Другую специфическую информацию, например структуры белков из медицинских статей </li></ul></ul>
  • 5. Извлечение фактов Вице-губернатор Новосибирской области Владимир Анисимов объявил, что в 2009 году в области планируется ввести в строй 979 тыс. кв. м жилья. В ответ на вопрос председателя строительного комитета облсовета Александра Савельева , занимающего пост генерального директора компании «КПД-Газстрой», руководитель профильного департамента обладминистрации сообщил, что за государственный счет будет построено около 10 % заявленных площадей. Пример FIO FIO post post post comp comp date number number geo
  • 6. автоматическая обработка текста Извлечение фактов <ul><ul><li>На входе: текст на естественном языке </li></ul></ul><ul><li>Текст анализируется на всех лингвистических уровнях: </li></ul><ul><ul><li>лексическом </li></ul></ul><ul><ul><li>морфологическом </li></ul></ul><ul><ul><li>синтаксическом </li></ul></ul><ul><ul><li>семантическом </li></ul></ul><ul><li>Различные уровни участвуют в разных процедурах анализа текста, которые входят в системы извлечения фактов. </li></ul>
  • 7. автоматическая обработка текста Извлечение фактов <ul><li>Определение словарной формы слов и нормализация других объектов (числа, даты) </li></ul>текст токенизация / графематика лемматизация/ нормализация частичный синтаксический разбор Выявление связей между словами, объединение слов в неразрывные группы Разбиение текста на абзацы, предложения, слова.
  • 8. автоматическая обработка текста Извлечение фактов <ul><ul><li>Где же семантика? </li></ul></ul>
  • 9. Так вот, семантика… Извлечение фактов <ul><ul><li>Определение типов объектов: </li></ul></ul><ul><ul><ul><li>Иван Петров – > ФИО </li></ul></ul></ul><ul><ul><ul><li>3 апреля 1975 года – > дата </li></ul></ul></ul><ul><ul><ul><li>директор по маркетингу – > должность </li></ul></ul></ul><ul><ul><ul><li>ООО «Рога и копыта» - > компания </li></ul></ul></ul><ul><ul><li>Установление связей между объектами Директор по маркетингу компании «Рога и копыта» Иван Петров родился ровно 35 лет назад. </li></ul></ul>Нет, это не магия!
  • 10. Не_магия бывает: Извлечение фактов <ul><ul><li>основанная на машинном обучении (в 3х словах) </li></ul></ul><ul><ul><ul><li>извлекается как можно больше лингвистической информации о словах </li></ul></ul></ul><ul><ul><ul><li>размечается обучающее множество, на нем обучается система </li></ul></ul></ul><ul><ul><ul><li>запускается на корпусе, получаются результаты </li></ul></ul></ul><ul><ul><li>основанная на правилах </li></ul></ul><ul><ul><ul><li>шаблоны описываются вручную </li></ul></ul></ul>
  • 11. Еще слайд про машинное обучение Извлечение фактов <ul><ul><li>не требует большого количества ручного труда по написанию правил </li></ul></ul><ul><ul><li>система более гибкая, ее легко перенастроить под другие «стили» языка, например перейти от СМИ-текстов к сообщениям в твиттере </li></ul></ul><ul><ul><li>не требует детального описания каждого контекста (т.е. правил не только меньше, но они имеют более общий вид) </li></ul></ul><ul><ul><li>процедуры можно делать итеративными: простые правила - > факты – > более сложные правила т.е. правила можно извлекать автоматически </li></ul></ul>
  • 12. Последнее про машинное обучение Извлечение фактов <ul><ul><li>Почему же им все не пользуются? </li></ul></ul><ul><ul><li>Недостаточно развиты инструменты для автоматической обработки русского языка </li></ul></ul><ul><ul><li>Требуется большой обучающий корпус, правильно и полностью размеченный </li></ul></ul><ul><ul><li>Сложно отследить в каком именно месте возникла ошибка и ее исправить «точечно» </li></ul></ul><ul><li>Но никто не говорит, что машинное обучение – это не круто ;) </li></ul>
  • 13. Извлечение фактов в Яндексе
  • 14. Что выделяется? Извлечение фактов в Яндексе <ul><ul><li>ФИО Яап де Хооп Схеффер </li></ul></ul><ul><ul><li>Компании Министерство иностранных дел </li></ul></ul><ul><ul><li>Адреса Люблинская улица, 153 </li></ul></ul><ul><ul><li>Даты 3 апреля 2010 года </li></ul></ul>
  • 15. В проекте Яндекс.Новости <ul><ul><li>для геопривязки сюжета </li></ul></ul><ul><ul><li>для выделения компаний и персон в сюжете </li></ul></ul><ul><ul><li>для извлечения адресов </li></ul></ul>Извлечение фактов в Яндексе
  • 16. В поиске Яндекса: ФИО Извлечение фактов в Яндексе
  • 17. В проекте Яндекс.Адреса Извлечение фактов в Яндексе
  • 18. Яндекс.Пресс-портреты Извлечение фактов в Яндексе <ul><ul><li>справочная информация о людях, упоминаемых в российских СМИ: </li></ul></ul><ul><ul><ul><li>даты рождения и смерти </li></ul></ul></ul><ul><ul><ul><li>места работы и должности </li></ul></ul></ul><ul><ul><ul><li>ключевые слова/свободные определения </li></ul></ul></ul><ul><ul><ul><ul><li>звания (полковник, доцент) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>ученые степени (доктор экономических наук) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>профессии (певец, актер) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>любые другие описания (хороший семьянин) </li></ul></ul></ul></ul><ul><ul><li>http://news.yandex.ru/people/ </li></ul></ul>
  • 19. http://news.yandex.ru/people/el1tsin_boris.html
  • 20. Яндекс.Пресс-портреты технология
  • 21. Как они составляются? Яндекс.Пресс-портреты <ul><ul><li>на основе текстов новостных сообщений, предоставляемых партнерами проекта Яндекс.Новости </li></ul></ul><ul><ul><li>полностью автоматически </li></ul></ul><ul><ul><ul><li>извлечение фактов: система основанная на правилах </li></ul></ul></ul><ul><ul><ul><li>составление пресс-портретов: кластеризация фактов </li></ul></ul></ul><ul><ul><li>итак… </li></ul></ul>
  • 22. Как они составляются? Яндекс.Пресс-портреты специализированный словарь парсер выделение объектов нормализация объектов составление фактов база фактов отождествление объектов отождествление фактов пресс- портреты кластеризация фактов операции над базой фактов извлечение фактов текст
  • 23. Выделение объектов: ФИО Яндекс.Пресс-портреты <ul><ul><li>использование словарной информации: пометы в словаре для имен, отчеств, фамилий </li></ul></ul><ul><ul><li>модуль для предсказания отчеств </li></ul></ul><ul><ul><li>наличие фамилии в словаре необязательно </li></ul></ul><ul><ul><li>несколько разных вхождений одного ФИО в тексте отождествляются ( Владимир Путин; В. Путин; Владимир Владимирович , Вова Путин ) </li></ul></ul><ul><ul><li>разрешение родовой омонимии для имен Александр vs Александра </li></ul></ul>
  • 24. Выделение ФИО - курьезы Яндекс.Пресс-портреты <ul><ul><li>Артемий Татьянович Лебедев </li></ul></ul><ul><ul><li>Вячеслав Нато …Слава Нато… …а вот НАТО - потенциальный освободитель… </li></ul></ul><ul><ul><li>Малай Вишер …от 17-летнего жителя города Малая Вишера , который пострадал от милиционера. </li></ul></ul><ul><ul><li>Александра Солженицына … профессор МГУ, лауреат премии Александра Солженицына и автор нескольких книг оригинальной прозы Алексей Варламов </li></ul></ul>
  • 25. Выделение компаний, должностей… (неразрывные цепочки) Яндекс.Пресс-портреты <ul><ul><li>Выделение ключевых слов «директор», «управление», «компания» </li></ul></ul><ul><ul><li>Описание конструкций с этими ключевыми словами (в вершинах) – для описания различных должностей «директор по продажам», «управление по налогам и сборам» </li></ul></ul><ul><ul><li>Описание взаимного расположения и согласования групп - для контекстного выделения компаний и свободных определений По словам Должность (gen) Компания ( gen ) ФИО ( gen ) Именная группа ( nom ) ФИО ( nom ) </li></ul></ul><ul><ul><li>По словам главного геолога ООО Бугурусланнефть Сергея Кротова Знаменитый художник Илья Репин </li></ul></ul>
  • 26. Как они составляются? Яндекс.Пресс-портреты словарь ключевых слов парсер выделение объектов нормализация объектов составление фактов база фактов отождествление объектов отождествление фактов пресс- портреты кластеризация фактов операции над базой фактов извлечение фактов текст
  • 27. Инструменты: Словарь Яндекс.Пресс-портреты <ul><ul><li>Словарь ключевых слов слова и словосочетания, на основании которых извлекаются факты, например должности </li></ul></ul><ul><ul><li>Задаются списками слов или словосочетаний или специальными правилами </li></ul></ul><ul><li>ЗГЛ= гео_долж </li></ul><ul><li>{ СОСТАВ= (прокурор|губернатор|мэр|вице-мэр|вице-губернатор|премьер-министр|премьер|вице-премьер|канцлер|вице-канцлер|госсекретарь|вице-президент) </li></ul><ul><li>ТИП_КС = post_geo } </li></ul><ul><li>Губернатор Ленинградской области </li></ul>
  • 28. Как они составляются? Яндекс.Пресс-портреты специализированный словарь парсер выделение объектов нормализация объектов составление фактов база фактов отождествление объектов отождествление фактов пресс- портреты кластеризация фактов операции над базой фактов извлечение фактов текст
  • 29. Инструменты: Томита-парсер Яндекс.Пресс-портреты <ul><ul><li>язык описания синтаксических структур </li></ul></ul><ul><ul><li>в основу парсера положен алгоритм Томиты, GLR-grammar, контекстно-свободная грамматика </li></ul></ul><ul><ul><li>Терминалы: </li></ul></ul><ul><ul><ul><li>слова </li></ul></ul></ul><ul><ul><ul><li>объекты (ФИО, даты, числа) </li></ul></ul></ul><ul><ul><ul><li>словосочетания / из статей словаря </li></ul></ul></ul><ul><ul><li>Правила </li></ul></ul>
  • 30. Инструменты: Томита-парсер Яндекс.Пресс-портреты <ul><ul><li>проверка согласования и выбора вершины (сопоставление текста с правилами грамматики) </li></ul></ul><ul><ul><li>порождение всевозможных вариантов разбора цепочки и выбор лучшего </li></ul></ul><ul><ul><li>связь со словарем (позволяет задать правило) ЗГЛ = _им_группа { СОСТАВ = tomita:adj_noun.cxx } чемпионка мира по художественной гимнастике </li></ul></ul><ul><ul><li>интерпретация результатов: сопоставление цепочек и полей фактов </li></ul></ul>
  • 31. Пример Яндекс.Пресс-портреты <ul><li>один из трех основных акционеров владелец 50% акций </li></ul><ul><ul><li>PostOwner -> Word<kwtype=владелец_долж>; </li></ul></ul><ul><ul><li>PostOwnerAdj -> NPAdjConj<gnc-agr[1]>* PostOwner<gnc-agr[1],rt>; </li></ul></ul><ul><ul><li>PostOwnerBlock -> PostOwnerAdj (Word<kwtype=группа_процент>); </li></ul></ul><ul><ul><li>PostP_ -> PostOwnerBlock interp (Fdo.Type = 'влад'); </li></ul></ul><ul><ul><li>PostP_ -> 'один'<rt> 'из' PostOwnerBlock<gram='рд,мн'> interp (Fdo.Type = 'влад'); </li></ul></ul><ul><ul><li>PostP -> PostP_ interp (Fdo.Post); </li></ul></ul><ul><ul><li>gnc-agr – согласование по роду числу и падежу </li></ul></ul><ul><ul><li>rt – маркирует вершину группы </li></ul></ul><ul><ul><li>kwtype=владелец_долж - отсылка на статью в словаре </li></ul></ul><ul><ul><li>NPAdjConj * – группа прилагательных (* - группа повторяется от 0 раз) </li></ul></ul>
  • 32. курьезы (имена изменены) Яндекс.Пресс-портреты <ul><ul><li>...По словам Марии Ивановой, овцы новой породы - своеобразные животные.... </li></ul></ul><ul><ul><li>ФИО: Мария Иванова </li></ul></ul><ul><ul><li>Статус – овца новой породы </li></ul></ul>...Милиция проводит проверку по факту задержания начальника отдела налоговой инспекции Ивана Петрова, подозреваемого в отстреле дикого козла, сообщил представитель МВД республики.... <ul><ul><li>ФИО: Иван Петров </li></ul></ul><ul><ul><li>Статус – подозреваемый в отстреле дикий козел </li></ul></ul><ul><ul><li>...&quot;Компьюбобр&quot; - так назвала свой гибрид чучела бобра и компьютера художница и изобретательница Кейси Макмэхон.... </li></ul></ul><ul><ul><li>ФИО: Кейси Макмэхон </li></ul></ul><ul><ul><li>Статус – гибрид чучела бобра и компьютера </li></ul></ul>
  • 33. Интерпретация и Факты Яндекс.Пресс-портреты <ul><ul><li>Факт состоит из какого-то набора полей, для каждого указывается: тип, обязательность, значение по умолчанию </li></ul></ul><ul><ul><ul><li>fact_type Fdo </li></ul></ul></ul><ul><ul><ul><li>{ fio Fio; </li></ul></ul></ul><ul><ul><ul><li>text Post [info]; </li></ul></ul></ul><ul><ul><ul><li>text CompanyName [h-reg1]; </li></ul></ul></ul><ul><ul><ul><li>~date TextDate; </li></ul></ul></ul><ul><ul><ul><li>~text Type = &quot;Fdo&quot;; } </li></ul></ul></ul><ul><ul><li>В грамматике указывается, какой элемент какого правила соответствует какому полю выделяемого факта </li></ul></ul>
  • 34. Пример Яндекс.Пресс-портреты <ul><ul><li>один из трех основных акционеров владелец 50% акций </li></ul></ul><ul><ul><li>PostOwner -> Word<kwtype=владелец_долж>; </li></ul></ul><ul><ul><li>PostOwnerAdj -> NPAdjConj<gnc-agr[1]>* PostOwner<gnc-agr[1],rt>; </li></ul></ul><ul><ul><li>PostOwnerBlock -> PostOwnerAdj (Word<kwtype=группа_процент>); </li></ul></ul><ul><ul><li>PostP_ -> PostOwnerBlock interp (Fdo.Type = 'влад'); </li></ul></ul><ul><ul><li>PostP_ -> 'один'<rt> 'из' PostOwnerBlock<gram='рд,мн'> interp (Fdo.Type = 'влад'); </li></ul></ul><ul><ul><li>PostP -> PostP_ interp (Fdo.Post); </li></ul></ul><ul><ul><li>gnc-agr – согласование по роду числу и падежу </li></ul></ul><ul><ul><li>rt – маркирует вершину группы </li></ul></ul><ul><ul><li>kwtype=владелец_долж - отсылка на статью в словаре </li></ul></ul><ul><ul><li>NPAdjConj * – группа прилагательных (* - группа повторяется от 0 раз) </li></ul></ul>
  • 35. Ситуации Яндекс.Пресс-портреты <ul><ul><li>Фрагментационный анализ (факт собирается из частей предложения, которые могут быть неконтактными) </li></ul></ul><ul><ul><li>работает в рамках клаузы </li></ul></ul><ul><ul><li>в вершине шаблона – глагол, для которого указываются валентности </li></ul></ul><ul><ul><li>позиции при глаголе - актанты – цепочки, распознанные грамматиками, заполняют глагольные валентности </li></ul></ul><ul><ul><li>глаголы определяют типы ситуаций </li></ul></ul>
  • 36. Ситуации Яндекс.Пресс-портреты <ul><ul><li>Дата рождения ... Великий писатель, драматург, поэт Николай Гоголь родился 1 апреля 1809 года в Полтавской губернии.... </li></ul></ul><ul><ul><li>Дата смерти ...4 марта 1852 года скончался писатель Николай Гоголь... </li></ul></ul><ul><ul><li>Назначение Главой &quot;Укравтодора&quot; назначен Валерий Вощевский. </li></ul></ul><ul><ul><li>Отставка Напомним, что вчера, 30 марта, экс-глава Запорожского областного совета Александр Нефедов сообщил ПОЛИТСОВЕТу, что подал в отставку. </li></ul></ul>
  • 37. Ситуации: пример Яндекс.Пресс-портреты <ul><li>В четверг, 1 апреля, в Москве ушел из жизни депутат Госдумы от КПРФ Юрий Маслюков. </li></ul>глагол ФИО, nom дата место, loc
  • 38. Ситуации Яндекс.Пресс-портреты <ul><ul><li>ЗГЛ = _умереть </li></ul></ul><ul><ul><li>{ СОСТАВ = (умереть|погибнуть|скончаться|покончить с себя| застрелиться|повеситься|уйти из жизнь) </li></ul></ul><ul><ul><li>ЧР = г </li></ul></ul><ul><ul><li>ТИП_КС = death_born_sit </li></ul></ul><ul><ul><li>УПР1 = ВАЛ_ФИО:_валентности_назначений.УПР_ФИО_СУБ.ВАЛ_ФИО_СУБ </li></ul></ul><ul><ul><li>interp( FioBirthDeath.Fio;) </li></ul></ul><ul><ul><li>ВАЛ_ДАТА( ( ТИП_КС = date_chain ) </li></ul></ul><ul><ul><li>interp( FioBirthDeath.TextDate;FioBirthDeath.WasBorn = false;)) </li></ul></ul><ul><ul><li>ВАЛ_ГЕО( ( ТИП_КС = geo ПРЕФИКС:СОСТАВ = (в|во|на|около) ) </li></ul></ul><ul><ul><li>interp( FioBirthDeath.Geo; ) ) </li></ul></ul><ul><ul><li>ПОРЯДОК ( (СЛЕД(ВАЛ_ФИО Х ВАЛ_ДАТА ВАЛ_ГЕО)) | </li></ul></ul><ul><ul><li>(СЛЕД(ВАЛ_ФИО Х ВАЛ_ГЕО ВАЛ_ДАТА))| </li></ul></ul><ul><ul><li>(СЛЕД(ВАЛ_ДАТА Х ВАЛ_ФИО ))) } </li></ul></ul>
  • 39. Как они составляются? Яндекс.Пресс-портреты словарь ключевых слов парсер выделение объектов нормализация объектов составление фактов база фактов отождествление объектов отождествление фактов пресс- портреты кластеризация фактов операции над базой фактов извлечение фактов текст
  • 40. нормализация Яндекс.Пресс-портреты <ul><ul><li>алгоритмом: </li></ul></ul><ul><ul><ul><li>сегодня - > 03.03.2010 </li></ul></ul></ul><ul><ul><li>по словарю: </li></ul></ul><ul><ul><ul><li>замдиректора - > заместитель директора </li></ul></ul></ul><ul><ul><ul><li>республика Саха - > Якутия </li></ul></ul></ul><ul><ul><li>по тексту </li></ul></ul><ul><ul><ul><li>МГУ - > Московский Государственный университет </li></ul></ul></ul><ul><ul><ul><li>В. Садовничий – > Виктор Антонович Садовничий </li></ul></ul></ul>
  • 41. Как они составляются? Яндекс.Пресс-портреты словарь ключевых слов парсер выделение объектов нормализация объектов составление фактов база фактов отождествление объектов отождествление фактов пресс- портреты кластеризация фактов операции над базой фактов извлечение фактов текст
  • 42. отождествление объектов Яндекс.Пресс-портреты <ul><li>Два разных названия относятся могут обозначать один объект или нет? </li></ul><ul><ul><li>Компании: </li></ul></ul><ul><ul><ul><li>морфология: Зенит vs Зенита </li></ul></ul></ul><ul><ul><ul><li>транслитерация: Яндекс vs Yandex </li></ul></ul></ul><ul><ul><ul><li>сокращения и сравнение строк: Министерство экономического развития России, минэкономразвития, мэрт </li></ul></ul></ul><ul><ul><li>Должности и статусы </li></ul></ul><ul><ul><ul><li>нечеткое сравнение строк: мастер спорта vs мастер своего дела </li></ul></ul></ul><ul><ul><ul><li>использование синонимов глава – руководитель, автор - создатель </li></ul></ul></ul>
  • 43. отождествление фактов Яндекс.Пресс-портреты <ul><ul><li>Два факта из разных документов тождественны или нет? </li></ul></ul><ul><ul><li>ФДО факты: </li></ul></ul><ul><ul><ul><li>Тождественны ли ФИО после нормализации? </li></ul></ul></ul><ul><ul><ul><li>Тождественны ли компании? </li></ul></ul></ul><ul><ul><ul><li>Похожи ли должности? </li></ul></ul></ul><ul><ul><li>Статусные факты: </li></ul></ul><ul><ul><ul><li>Тождественны ли ФИО? </li></ul></ul></ul><ul><ul><ul><li>Похожи ли статусы? </li></ul></ul></ul>
  • 44. Как они составляются? Яндекс.Пресс-портреты словарь ключевых слов парсер выделение объектов нормализация объектов составление фактов база фактов отождествление объектов отождествление фактов пресс- портреты кластеризация фактов операции над базой фактов извлечение фактов текст
  • 45. отождествление объектов : пример Яндекс.Пресс-портреты <ul><ul><li>Doc 1: …председатель правления Siemens Петер Лешер… </li></ul></ul><ul><ul><li>Doc 2: … председатель правления концерна Сименс АГ Петер Лешер … </li></ul></ul><ul><ul><li>Siemens = Сименс АГ </li></ul></ul><ul><ul><li>В базе фактов прописывается эквивалентность названий </li></ul></ul>
  • 46. отождествление объектов Яндекс.Пресс-портреты <ul><ul><li>Самое сложное: </li></ul></ul><ul><ul><li>Леонид Меламед – АФК «Система», президент </li></ul></ul><ul><ul><li>Леонид Меламед – Российская корпорация нанотехнологий, генеральный директор </li></ul></ul><ul><ul><li>Александр Володарский – художник </li></ul></ul><ul><ul><li>Александр Володарский – общественный деятель </li></ul></ul>
  • 47. объединение фактов в пресс-портрет Яндекс.Пресс-портреты <ul><ul><li>Факты объединяются в пресс-портреты по: </li></ul></ul><ul><ul><ul><li>совпадению нормализованного имени </li></ul></ul></ul><ul><ul><ul><li>совместной встречаемости в рамках одного документа </li></ul></ul></ul><ul><ul><ul><li>вхождению одного факта (признанного тождественным) в несколько документов </li></ul></ul></ul><ul><ul><li>Это делается большим и сложным алгоритмом кластеризации. </li></ul></ul>
  • 48. совсем не про лингвистику, но всем интересно Яндекс.Пресс-портреты <ul><ul><li>Как выбираются фотографии к пресс-портретам? </li></ul></ul><ul><ul><ul><li>специальный запрос к Яндекс.Картинкам, учитывающий основные факты и ФИО </li></ul></ul></ul><ul><ul><ul><li>фильтр на содержание лица на картинке </li></ul></ul></ul><ul><ul><ul><li>за все остальное отвечает поиск по картинкам </li></ul></ul></ul>
  • 49. фотография Яндекс.Пресс-портреты <ul><li>Этот алгоритм работает очень хорошо! </li></ul>Почти всегда!
  • 50. вместо заключения Яндекс.Пресс-портреты <ul><ul><li>Идеальный пресс-портрет это: </li></ul></ul><ul><ul><ul><li>полностью правильно нормализованное ФИО </li></ul></ul></ul><ul><ul><ul><li>полностью правильно извлеченные факты </li></ul></ul></ul><ul><ul><ul><li>в пресс-портрет входят факты только про одного человека </li></ul></ul></ul><ul><ul><ul><li>все факты про этого человека входят в один пресс-портрет </li></ul></ul></ul><ul><ul><ul><li>и фотография тоже правильная </li></ul></ul></ul><ul><ul><li>Идеал недостижим. </li></ul></ul><ul><ul><li>Но мы очень стараемся! </li></ul></ul>
  • 51. где почитать? Яндекс.Пресс-портреты <ul><ul><li>Text Mining, Information and Fact Extraction Marie-Francine Moens (Katholieke Universiteit Leuven) http ://romip.ru/russir2008/program.html#tmife </li></ul></ul><ul><ul><li>Материалы конференции «Диалог» http ://dialog-21.ru </li></ul></ul><ul><ul><li>Статья в Википедии о Мосару Томита http ://en.wikipedia.org/wiki/Masaru_Tomita </li></ul></ul>
  • 52. <ul><li>Менеджер проектов </li></ul><ul><li>[email_address] </li></ul><ul><li>Т атьяна Ландо </li></ul>
  • 53. Спасибо за вопрос! Яндекс.Пресс-портреты <ul><ul><li>Все составляется абсолютно автоматически! </li></ul></ul>