Новости города БезФормата.Ru
Владикавказ
Главные новости
 
Задать вопрос?

Технологии машинного обучения группы компаний «Ростелеком» признаны лучшими в морфологическом анализе текстов

Самообучаемый алгоритм морфологического анализа и нормализации русскоязычных текстов, разработанный специалистами АО «Айкумен ИБС»,показал наилучшие характеристики в конкурсной части состоявшейся в Москве XXIII Международной конференции «Диалог 2017», посвященной актуальной оценке уровня развития российских машинно-лингвистических технологий. При подготовке к конкурсу «умный» классификатор набрал обучающую статистику признаков из текстового корпуса объемом более миллиона слов, а для оценки точности ему было предложен массив документов из 15000 слов.

В результате сравнительного тестирования на закрытой дорожке MorphoRuEval метод «Айкумен ИБС» признан победителем по точности нормализации русских слов, достигающей 92,22%. Кроме того, он занял второе место по восстановлению морфологических признаков с достоверностью свыше 93%.
По мнению директора Департамента разработки АО «Айкумен ИБС» Андрея Ярового, «независимая экспертиза «DialogueEvaluation» подтвердила отличное качество морфологического анализа текстов, используемого в компании. Данный анализ является фундаментом всей текстовой аналитики, что позволяет нам с беспрецедентной точностью извлекать смысл из документов на русском языке».
«Мы продолжаем двигаться вперед, постоянно совершенствуем алгоритмы и разрабатываем инновационные методы в своей работе, предоставляя возможность нашим заказчикам максимально использовать преимущества IQPLATFORM® - современного отечественного продукта в области BigData, по ряду функционала не имеющего аналогов на российском и мировом рынках» - подводит итог участия в мероприятии генеральный директор АО «Айкумен ИБС» Ирина Касаткина.
Морфологический анализ выполняется на начальных этапах автоматической обработки текста и является одной из наиболее важных операций, влияющих на финальное качество анализа документов. К его задачам относится определение части речи и морфологических признаков (падеж, род, число, время, лицо и пр.) каждого слова предложения, а также нормализация - корректное восстановление начальной формы этих слов.
Представленная технология лингвистической обработки позволяет более качественно и с минимальным участием человека анализировать большие объемы текстовой информации на естественных языках.
Существующие методологии в этой области сконцентрированы на английском языке. Но они абсолютно несовместимы с русской языковой моделью по причине ее морфологической обогащенности более чем 300 различными комбинациями признаков.
Исходя из этих особенностей, лингвистическая группа компании «Айкумен ИБС» разработала свой алгоритм, объединяющий достоинства классических способов с методами машинного обучения в виде двухступенчатой фильтрации словарного разбора:
• Формирование предположений о возможных разборах слова с применением грамматического словаря. При отсутствии в библиотеке необходимого термина производится поиск наиболее похожего слова для разбора по аналогии;
• Выбор оптимального варианта признака из контекста предложения с помощью самообучаемого классификатора на основе линейной машины опорных векторов SVM (SupportVectorMachine). Для дополнительной проверки каждого разбора применяется общая оценка из суммы оценок входящих в него признаков, а в качестве оптимального выбирается разбор с максимальной оценкой.
Роль указанных признаков играют различные комбинации префиксов, суффиксов и отдельных морфологических характеристик слов в пределах контекстного окна размером ±3 слова от анализируемого.
Научно-практический форум «Диалог» ежегодно собирает ведущих ученых, мировых экспертов и отраслевых вендоров для обсуждения передовых методов компьютерной лингвистики и обмена опытом создания прикладных решений по интеллектуальному анализу текстов на естественных языках. Наибольшим интересом в программе конференции-2017 пользовался конкурс MorphoRuEval, организованный лабораторией «DialogueEvaluation» для тестирования инструментов морфологического анализа русскоязычных текстов из сети Интернет. В этом году в нем приняли участие 15 команд, представляющих компании ABBYY, OnPositive, Pullenti, Samsung R&D и «Айкумен ИБС», а также университеты МФТИ, НИУ ВШЭ, ИСП РАН, МГУ, МИЭМ и НГУ.
Пресс-служба Ростелекома

 

Последние новости Северной Осетии-Алании по теме:
Технологии машинного обучения группы компаний «Ростелеком» признаны лучшими в морфологическом анализе текстов

Технологии машинного обучения группы компаний Ростелеком признаны лучшими в морфологическом анализе текстов - Владикавказ
Самообучаемый алгоритм морфологического анализа и нормализации русскоязычных текстов,
19:02 20.06.2017 Vestiyuga.Ru
Технологии машинного обучения группы компаний «Ростелеком» признаны лучшими в морфологическом анализе текстов - Владикавказ
Самообучаемый алгоритм морфологического анализа и нормализации русскоязычных текстов,
17:22 20.06.2017 Осетинское радио
Сбор крови для пострадавшего в аварии бойца MMA начат в Чечне - Кавказский УзелБоец ММА Дмитрий Суродеев, пострадавший в результате ДТП в Чечне, находится в Аргунской больнице и нуждается в переливании крови, заявили представители бойцовского сообщества.
21.08.2017 Кавказский Узел
Сегодня Шестнадцатый апелляционный арбитражный суд поставил точку в споре ЧУ ДПО УЦ «Профессия» и Комитета РСО-Алания по занятости населения.
21.08.2017 Vestiyuga.Ru
Сегодня Шестнадцатый апелляционный арбитражный суд поставил точку в споре ЧУ ДПО УЦ «Профессия» и Комитета РСО-Алания по занятости населения.
21.08.2017 УФАС
«Симд» на бюджете - Осетинское радио«Симд» в Роще Хетага был неоднозначен по сути и исполнению. Мнения о его нужности кардинально разошлись.
21.08.2017 Осетинское радио
  Власти решили привлечь сайт знакомств «Мамба» для повышения явки среди молодежи на губернаторских выборах.
21.08.2017 Vestiyuga.Ru
Полиция установила личность барселонского террориста - Осетинское радиоПолиция Каталонии сообщила, что ей удалось установить личность террориста, совершившего атаку в Барселоне.
21.08.2017 Осетинское радио
  Власти решили привлечь сайт знакомств «Мамба» для повышения явки среди молодежи на губернаторских выборах.
21.08.2017 Газета Слово
Полицейские Северной Осетии задержали мужчин, разыскиваемых за ранее совершенные преступления по различным статьям уголовного кодекса.
20.08.2017 МВД Республики Северная Осетия – Алания
Руслана Зейтуллаева, признанного судом организатором крымской ячейки "Хизб ут-Тахрир"*, этапируют в Башкортостан.
21.08.2017 Кавказский Узел
Глава Следственного комитета поручил столичным следователям дело о нападении на прохожих в Сургуте.
21.08.2017 Кавказский Узел
ИГ* напало на Испанию: 13 погибших, более 100 пострадавших - Газета Слово
ИГ* напало на Испанию: 13 погибших, более 100 пострадавших
Серия терактов произошла в четверг в Испании: основной удар экстремистов пришелся по Барселоне, где машина въехала в толпу в центре города.
Газета Слово
Суд обязал Никиташенко отработать 400 часов бесплатно - Газета Слово
Суд обязал Никиташенко отработать 400 часов бесплатно
    Советский суд Владикавказа приговорил за подлог документов бывшего и.о.
Газета Слово
Обвинение просит наказать Никиташенко штрафом в 100 тыс руб - Газета Слово
Обвинение просит наказать Никиташенко штрафом в 100 тыс руб
  Гособвинитель запросил наказание бывшему и.о. главврача Георгию Никиташенко, обвиняемому в «использовании заведомо ложных документов» в виде штрафа в 100 тыс руб, в свою очередь представитель подсудимого, заявив,
Газета Слово
Мемориальный комплекс возле памятника Герою Советского Союза Петру Барбашову будет дополнен новой экспозицией.
21.08.2017 МВД Республики Северная Осетия – Алания
Ценный подарок из Осетии - Осетинское радиоОсетинская делегация побывала в городе Ясберене в Венгрии на крупном ежегодном фестивале фольклорной музыки и народных ремесел, куда съехались гости от Грузии до Колумбии.
19.08.2017 Осетинское радио
Владимир Путин предложил создать в Херсонесе «российскую Мекку» - Осетинское радиоПрезидент России Владимир Путин посетил государственный историко-археологический музей-заповедник «Херсонес Таврический».
19.08.2017 Осетинское радио
Колиев озвучил Битарову проблемы Осетинского театра - Газета Слово
Колиев озвучил Битарову проблемы Осетинского театра
Новый художественный руководитель Осетинского театра рассказал о проблемах учреждения главе республики Вячеславу Битарову во время рабочей встречи.
Газета Слово
Пять спектаклей привезет Московский театр им. Маяковского в республику - Газета Слово
Пять спектаклей привезет Московский театр им. Маяковского в республику
Московский академический театр им. В. Маяковского покажет на гастролях в Северной Осетии  пять спектаклей.
Газета Слово
В Венгрии спели - Газета Слово
В Венгрии спели "Мæ Иры фæсивæд" и сыграли на осетинской арфе
  Осетинская делегация вернулась из Венгрии, где побывала на ежегодном грандиозном фестивале в городе Ясберень и поделилась со "Слово" впечатлениями от поездки.
Газета Слово
Алан Дзагоев: Главное – вернуть любовь болельщиков - Осетинское радиоАлан считает, что главное для сборной это хорошо выступить и вернуть любовь болельщиков.
21.08.2017 Осетинское радио
ОНФ в Северной Осетии обнаружил нарушения в ремонтных работах дорожных полотен Моздокского района - ОНФ в Северной ОсетииВ рамках реализации проекта Общероссийского народного фронта «Дорожная инспекция ОНФ/Карта убитых дорог» эксперты Народного фронта проинспектировали ремонтные работы асфальтобетонных покрытий в Моздокском районе.
21.08.2017 ОНФ в Северной Осетии
Стал известен окончательный состав сборной России на сбор в Новогорске и контрольный матч с «Динамо».
21.08.2017 Осетинское радио
Дзагоев: ЧМ-2018 может стать последним для меня чемпионатом - Газета Слово
Дзагоев: ЧМ-2018 может стать последним для меня чемпионатом
  Полузащитник сборной России по футболу и ЦСКА Алан Дзагоев предположил, что чемпионат мира по футболу 2018 году может стать для него первым и последним ЧМ.
Газета Слово
Спорт.fm составил сборную России по футболу из осетинских игроков - Газета Слово
Спорт.fm составил сборную России по футболу из осетинских игроков
  Спорт.fm решил пофантазировать и составил национальную сборную по футболу полностью из представителей Осетии и показал, что из этого получится.
Газета Слово
Спрот.fm составил сборную России по футболу из осетинских игроков - Газета Слово
Спрот.fm составил сборную России по футболу из осетинских игроков
  Спорт.fm решил пофантазировать и составил национальную сборную по футболу полностью из представителей Осетии и показал, что из этого получится.
Газета Слово
JPG Файл - МВД Республики Северная Осетия – АланияСегодня начальник полиции - заместитель министра внутренних дел по РСО-Алания Дмитрий  Гутыря официально представил коллективу УГИБДД МВД по РСО-Алания нового начальника Госавтоинспекции республики.
21.08.2017 МВД Республики Северная Осетия – Алания
22 августа в Осетии отметят День Российского флага - Осетинское радиоЗавтра, 22 августа, в Северной Осетии, как и по всей стране, отметят День Российского флага.
21.08.2017 Осетинское радио
ЦИК не комментирует ситуацию до решения суда - Осетинское радиоСМИ не дождались ожидаемого комментария по вчерашней ситуации со снятием КПРФ Ставропольским краевым судом.
21.08.2017 Осетинское радио
ОНФ в Северной Осетии обнаружил нарушения в ремонтных работах дорожных полотен Моздокского района - ОНФ в Северной ОсетииВ рамках реализации проекта Общероссийского народного фронта «Дорожная инспекция ОНФ/Карта убитых дорог» эксперты Народного фронта проинспектировали ремонтные работы асфальтобетонных покрытий в Моздокском районе.
21.08.2017 ОНФ в Северной Осетии
25-летний житель Владикавказа, присвоив игровую консоль,  полгода скрывался в Москве.
21.08.2017 МВД Республики Северная Осетия – Алания