Технологии машинного обучения группы компаний «Ростелеком» признаны лучшими в морфологическом анализе текстов

Самообучаемый алгоритм морфологического анализа и нормализации русскоязычных текстов, разработанный специалистами АО «Айкумен ИБС»,показал наилучшие характеристики в конкурсной части состоявшейся в Москве XXIII Международной конференции «Диалог 2017», посвященной актуальной оценке уровня развития российских машинно-лингвистических технологий. При подготовке к конкурсу «умный» классификатор набрал обучающую статистику признаков из текстового корпуса объемом более миллиона слов, а для оценки точности ему было предложен массив документов из 15000 слов.

В результате сравнительного тестирования на закрытой дорожке MorphoRuEval метод «Айкумен ИБС» признан победителем по точности нормализации русских слов, достигающей 92,22%. Кроме того, он занял второе место по восстановлению морфологических признаков с достоверностью свыше 93%.
По мнению директора Департамента разработки АО «Айкумен ИБС» Андрея Ярового, «независимая экспертиза «DialogueEvaluation» подтвердила отличное качество морфологического анализа текстов, используемого в компании. Данный анализ является фундаментом всей текстовой аналитики, что позволяет нам с беспрецедентной точностью извлекать смысл из документов на русском языке».
«Мы продолжаем двигаться вперед, постоянно совершенствуем алгоритмы и разрабатываем инновационные методы в своей работе, предоставляя возможность нашим заказчикам максимально использовать преимущества IQPLATFORM® - современного отечественного продукта в области BigData, по ряду функционала не имеющего аналогов на российском и мировом рынках» - подводит итог участия в мероприятии генеральный директор АО «Айкумен ИБС» Ирина Касаткина.
Морфологический анализ выполняется на начальных этапах автоматической обработки текста и является одной из наиболее важных операций, влияющих на финальное качество анализа документов. К его задачам относится определение части речи и морфологических признаков (падеж, род, число, время, лицо и пр.) каждого слова предложения, а также нормализация - корректное восстановление начальной формы этих слов.
Представленная технология лингвистической обработки позволяет более качественно и с минимальным участием человека анализировать большие объемы текстовой информации на естественных языках.
Существующие методологии в этой области сконцентрированы на английском языке. Но они абсолютно несовместимы с русской языковой моделью по причине ее морфологической обогащенности более чем 300 различными комбинациями признаков.
Исходя из этих особенностей, лингвистическая группа компании «Айкумен ИБС» разработала свой алгоритм, объединяющий достоинства классических способов с методами машинного обучения в виде двухступенчатой фильтрации словарного разбора:
• Формирование предположений о возможных разборах слова с применением грамматического словаря. При отсутствии в библиотеке необходимого термина производится поиск наиболее похожего слова для разбора по аналогии;
• Выбор оптимального варианта признака из контекста предложения с помощью самообучаемого классификатора на основе линейной машины опорных векторов SVM (SupportVectorMachine). Для дополнительной проверки каждого разбора применяется общая оценка из суммы оценок входящих в него признаков, а в качестве оптимального выбирается разбор с максимальной оценкой.
Роль указанных признаков играют различные комбинации префиксов, суффиксов и отдельных морфологических характеристик слов в пределах контекстного окна размером ±3 слова от анализируемого.
Научно-практический форум «Диалог» ежегодно собирает ведущих ученых, мировых экспертов и отраслевых вендоров для обсуждения передовых методов компьютерной лингвистики и обмена опытом создания прикладных решений по интеллектуальному анализу текстов на естественных языках. Наибольшим интересом в программе конференции-2017 пользовался конкурс MorphoRuEval, организованный лабораторией «DialogueEvaluation» для тестирования инструментов морфологического анализа русскоязычных текстов из сети Интернет. В этом году в нем приняли участие 15 команд, представляющих компании ABBYY, OnPositive, Pullenti, Samsung R&D и «Айкумен ИБС», а также университеты МФТИ, НИУ ВШЭ, ИСП РАН, МГУ, МИЭМ и НГУ.
Пресс-служба Ростелекома

 

Последние новости Северной Осетии-Алании по теме:
Технологии машинного обучения группы компаний «Ростелеком» признаны лучшими в морфологическом анализе текстов

- Владикавказ
Самообучаемый алгоритм морфологического анализа и нормализации русскоязычных текстов,
19:02 20.06.2017 Vestiyuga.Ru
Технологии машинного обучения группы компаний «Ростелеком» признаны лучшими в морфологическом анализе текстов - Владикавказ
Самообучаемый алгоритм морфологического анализа и нормализации русскоязычных текстов,
17:22 20.06.2017 Осетинское радио
 
По теме
Сотрудники Комитета осуществили выезд в Алагирский район с целью мониторинга объектов культурного наследия регионального и федерального значения.
19.06.2018
тамара 1 - Моздокский вестник Социальные кнопки для Joomla Тамара ЮСУПОВА, кадровый делопроизводитель: - В нашей семье традиция читать районную газету переходит из поколения в поколение.
19.06.2018
 
20 студентов Технологического колледжа полиграфии и дизайна взошли на гору Фетхуз, высота которой составляет около 1700 метров.
19.06.2018
Фото #1 к материалу «"Электроцинк" завершил программу реконструкции сернокислотного цеха» - Region15.Ru С 13 по 15 июня на новом конечном абсорбере сернокислотного цеха (СКЦ) ОАО "Электроцинк" (предприятие металлургического комплекса УГМК) смонтировано распределительное устройство UnilFo производства компании MECS.
19.06.2018
Послание потомкам на горе Фетхуз - Министерство образования и науки Студенты и педагоги Технологического колледжа полиграфии и дизайна в составе 20 человек совершили восхождение на вершину горы Фетхуз (высота над уровнем моря 1745 метров), приуроченное к празднованию 150-летия колледжа.
19.06.2018
 
На основании представленных прокурором доказательств, Промышленный районный суд вынес обвинительный приговор в отношении 43-летней, ранее неоднократно судимой уроженки г.Алагира Гогаевой Анжелы Владимировны.
18.06.2018 Прокуратура
Прокуратура Ирафского района Республики Северная Осетия-Алания направила в суд уголовное дело в отношении бывшего главы Махческского сельского поселения, который обвиняется в совершении преступления,
18.06.2018 Прокуратура
Социальные кнопки для Joomla Ночью неподалеку от перекрестка улиц Усанова и Проездной в г. Моздоке сотрудники полиции при личном досмотре жителя г. Дигоры И.
14.06.2018 Моздокский вестник
Валерий Суанов мечтает сыграть Сирано де Бержерака - Газета Слово Осетинский режиссер и хореограф Валерий Суанов, отвечая на вопросы журналистов на пресс-конференции по итогам премьеры балета «Портрет Дориана Грея», где он выступил в качестве режиссера, сказал,
20.06.2018 Газета Слово
"Мадæлон æвзаг - царддæттæг фарн" - Министерство культуры Министр культуры РСО-А Руслан Мильдзихов посетил выставку "Мадæлон æвзаг - царддæттæг фарн" в Музее осетинской литературы им.К.Л.Хетагурова, которая открылась в рамках Международной акции "Ночь музеев - 2018".
19.06.2018 Министерство культуры
Осетинский режиссер и хореограф Валерий Суанов попросил жителей республики не вести прямы эфиры с показов спектаклей в социальные сети, чтобы не мешать артистам и зрителям.
19.06.2018 Газета Слово
Сотрудники осетинского  таможенного управления, досматривая на пограничном пункте пропуска «Верхний Ларс»  автобус, покидающий Россию в сторону Грузию,
14.06.2018 Газета Слово
Россия в  плей - офф! - Газета Слово И как эффектно она сыграла! Матч до перерыва был равным, однако в самом начале второго тайма Ахмед Фахти, прерывая передачу Зобнина, срезал мяч в собственные ворота.
20.06.2018 Газета Слово
Села Осетии включаются в флешмоб по присвоению футболистам сборной званий «Почётных жителей» - Газета Слово Ещё одно высокогорное село Дигорского района Северной Осетии Куссу вслед за Камунта заявило о том, что готово присвоить звания почётных граждан села футболистам Российской сборной, если они займут призовое место на ЧМ-2018.
20.06.2018 Газета Слово
JPG Файл - МВД Республики Северная Осетия – Алания С 16 по 18 июня 2018 г. в г.Терек Кабардино-Балкарской Республики прошел Всероссийский турнир по самбо памяти мастера спорта СССР К. Панагова.
20.06.2018 МВД Республики Северная Осетия – Алания
Бой между россиянином Муратом Гассиевым и украинцем Александром Усиком в финале Всемирной суперсерии бокса (WBSS) в весовой категории до 90,71 кг пройдет 21 июля в Москве в спорткомплексе "Олимпийском".
18.06.2018 Газета Слово
Выпускники Северной Осетии сдают 20 июня ЕГЭ по физике и литературе - Министерство образования и науки Экзамены по физике и литературе завершают 20 июня проведение ЕГЭ-2018 в основные сроки, с 22 июня по 2 июля основной период ЕГЭ продолжат резервные дни для сдачи всех предметов.
20.06.2018 Министерство образования и науки
Земляки Черчесова соберутся в его родном Алагире поболеть за Россию в матче с Египтом - ГТРК Алания Жители города Алагир в Северной Осетии, уроженцем которого является главный тренер сборной России по футболу Станислав Черчесов, соберутся вместе, чтобы поболеть за родную команду в ее сегодняшней игре против Египта.
19.06.2018 ГТРК Алания
В течение пяти месяцев текущего года в филиал МРСК Северного Кавказа – «Севкавказэнерго» от гарантирующего поставщика электроэнергии было получено 21 936 заявок на введение режима ограниченного энергопотребления абонентов,
19.06.2018 Region15.Ru
21.06.2018г. с 09:00 до 13:00 будет ограниченно водоснабжение абонентов по Архонскому шоссе и 5-6 МКР в связи с проведением необходимых работ по замене задвижек по ул.Московская-Архонское шоссе.
19.06.2018 Администрация г. Владикавказ