Технологии машинного обучения группы компаний Ростелеком признаны лучшими в морфологическом анализе текстов

Самообучаемый алгоритм морфологического анализа и нормализации русскоязычных текстов, разработанный специалистами АО «Айкумен ИБС»,показал наилучшие характеристики в конкурсной части состоявшейся в Москве XXIII Международной конференции «Диалог 2017», посвященной актуальной оценке уровня развития российских машинно-лингвистических технологий. При подготовке к конкурсу «умный» классификатор набрал обучающую статистику признаков из текстового корпуса объемом более миллиона слов, а для оценки точности ему было предложен массив документов из 15000 слов. В результате сравнительного тестирования на закрытой дорожке MorphoRuEval метод «Айкумен ИБС» признан победителем по точности нормализации русских слов, достигающей 92,22%. Кроме того, он занял второе место по восстановлению морфологических признаков с достоверностью свыше 93%. По мнению директора Департамента разработки АО «Айкумен ИБС» Андрея Ярового, «независимая экспертиза «DialogueEvaluation» подтвердила отличное качество морфологического анализа текстов, используемого в компании. Данный анализ является фундаментом всей текстовой аналитики, что позволяет нам с беспрецедентной точностью извлекать смысл из документов на русском языке». «Мы продолжаем двигаться вперед, постоянно совершенствуем алгоритмы и разрабатываем инновационные методы в своей работе, предоставляя возможность нашим заказчикам максимально использовать преимущества IQPLATFORM® - современного отечественного продукта в области BigData, по ряду функционала не имеющего аналогов на российском и мировом рынках» - подводит итог участия в мероприятии генеральный директор АО «Айкумен ИБС» Ирина Касаткина. Морфологический анализ выполняется на начальных этапах автоматической обработки текста и является одной из наиболее важных операций, влияющих на финальное качество анализа документов. К его задачам относится определение части речи и морфологических признаков (падеж, род, число, время, лицо и пр.) каждого слова предложения, а также нормализация - корректное восстановление начальной формы этих слов. Представленная технология лингвистической обработки позволяет более качественно и с минимальным участием человека анализировать большие объемы текстовой информации на естественных языках. Существующие методологии в этой области сконцентрированы на английском языке. Но они абсолютно несовместимы с русской языковой моделью по причине ее морфологической обогащенности более чем 300 различными комбинациями признаков. Исходя из этих особенностей, лингвистическая группа компании «Айкумен ИБС» разработала свой алгоритм, объединяющий достоинства классических способов с методами машинного обучения в виде двухступенчатой фильтрации словарного разбора: • Формирование предположений о возможных разборах слова с применением грамматического словаря. При отсутствии в библиотеке необходимого термина производится поиск наиболее похожего слова для разбора по аналогии; • Выбор оптимального варианта признака из контекста предложения с помощью самообучаемого классификатора на основе линейной машины опорных векторов SVM (SupportVectorMachine). Для дополнительной проверки каждого разбора применяется общая оценка из суммы оценок входящих в него признаков, а в качестве оптимального выбирается разбор с максимальной оценкой. Роль указанных признаков играют различные комбинации префиксов, суффиксов и отдельных морфологических характеристик слов в пределах контекстного окна размером ±3 слова от анализируемого. Научно-практический форум «Диалог» ежегодно собирает ведущих ученых, мировых экспертов и отраслевых вендоров для обсуждения передовых методов компьютерной лингвистики и обмена опытом создания прикладных решений по интеллектуальному анализу текстов на естественных языках. Наибольшим интересом в программе конференции-2017 пользовался конкурс MorphoRuEval, организованный лабораторией «DialogueEvaluation» для тестирования инструментов морфологического анализа русскоязычных текстов из сети Интернет. В этом году в нем приняли участие 15 команд, представляющих компании ABBYY, OnPositive, Pullenti, Samsung R&D и «Айкумен ИБС», а также университеты МФТИ, НИУ ВШЭ, ИСП РАН, МГУ, МИЭМ и НГУ. Пресс-служба Ростелекома

 

Ещё новости о событии:

Самообучаемый алгоритм морфологического анализа и нормализации русскоязычных текстов,
19:02 20.06.2017 Vestiyuga.Ru - Владикавказ
Самообучаемый алгоритм морфологического анализа и нормализации русскоязычных текстов,
17:22 20.06.2017 Осетинское радио - Владикавказ
 
По теме
Регистрация на портале Госуслуги доступна, бесплатна, а также ведет к сокращению времени получения всего спектра государственных услуг в электронном виде в кратчайшие сроки.
Более 80% жителей Республики Северная Осетия-Алания предпочитает подавать заявления в электронном виде через Единый портал государственных и муниципальных услуг.
Североосетинскими полицейскими зарегистрированы случаи неправомерного доступа к компьютерной информации мессенджера Whats App с целью совершения преступлений направленных на хищение денежных средств граждан.
Регистрация на портале Госуслуги доступна, бесплатна, а также ведет к сокращению времени получения всего спектра государственных услуг в электронном виде в кратчайшие сроки.
Регистрация на портале Госуслуги доступна, бесплатна, а также ведет к сокращению времени получения всего спектра государственных услуг в электронном виде в кратчайшие сроки.
Подписано соглашение о сотрудничестве с платформой «Мой спорт». Эта онлайн-система призвана сделать жизнь каждого в стране участника спортивного процесса проще и комфортнее, а спорт — ближе и доступнее.
Регистрация на портале Госуслуги доступна, бесплатна, а также ведет к сокращению времени получения всего спектра государственных услуг в электронном виде в кратчайшие сроки.
Североосетинскими полицейскими зарегистрированы случаи неправомерного доступа к компьютерной информации мессенджера Whats App, с целью совершения преступлений, направленных на хищение денежных средств граждан.
Регистрация на портале Госуслуги доступна, бесплатна, а также ведет к сокращению времени получения всего спектра государственных услуг в электронном виде в кратчайшие сроки.
ПАМЯТКА «Телефонные мошенничества» Основные способы дистанционных хищений денежных средств, при которых мошенники вводят граждан в заблуждение посредством телефонных звонков: Вариант : (звонок сотрудника банка),
Моздокский район
В результате проведения комплекса оперативно-розыскных мероприятий сотрудниками Управления по контролю за оборотом наркотиков МВД по РСО-Алания задержана ранее судимая 47-летняя жительница г. Новороссийска,
ОМВД Республики Северная осетия-алания
JPEG Файл - ОМВД Республики Северная осетия-алания В мероприятии, организованном в рамках Всероссийской акции «Сообщи, где торгуют смертью» также приняла участие   специалист-эксперт управления по контролю за оборотом наркотиков МВД  по РСО-Алания.
ОМВД Республики Северная осетия-алания
Чем опасны клещи и как с ними бороться Иксодовые клещи – особое семейство клещей, включающее огромное количество разных видов, среди которых есть особо опасные кровососущие переносчики серьезных инфекционных заболеваний.
Роспотребнадзор
Туберкулез Туберкулез является широко распространенным инфекционным заболеванием человека и животных, вызываемым микобактериями туберкулезного комплекса (Mycobacteriumtuberculosiscomplex– МТВС).
Роспотребнадзор
В МОО рамках клуба «Мотиватор» прошла встреча с Амирханом Торчиновым - Iriston.Ru В Московской осетинской общине функционирует дискуссионный молодёжный клуб «Мотиватор», гостями которого становятся наши уважаемые соотечественники, делящиеся своим богатым жизненным и профессиональным опытом.
Iriston.Ru