'
Научный журнал «Вестник науки»

Режим работы с 09:00 по 23:00

zhurnal@vestnik-nauki.com

Информационное письмо

  1. Главная
  2. Архив
  3. Вестник науки №7 (52) том 3
  4. Научная статья № 12

Просмотры  74 просмотров

Кузьмин А.Д.

  


СИСТЕМЫ ВЫДЕЛЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ ТЕКСТОВ *

  


Аннотация:
в данной статье описаны системы выделения именованных сущностей, а также приведены заключения, на основании которых можно судить о качестве указанных выше систем   

Ключевые слова:
именованные сущности, системы выделения именованных сущностей, Томмита-парсер   


УДК 004.043

Кузьмин А.Д.

студент 4 курса кафедры информационных систем и технологий

Московский государственный технологический университет «СТАНКИН»

(Россия, г. Москва)

 

СИСТЕМЫ ВЫДЕЛЕНИЯ ИМЕНОВАННЫХ

СУЩНОСТЕЙ ИЗ ТЕКСТОВ

 

Аннотация: в данной статье описаны системы выделения именованных сущностей, а также приведены заключения, на основании которых можно судить о качестве указанных выше систем.

 

Ключевые слова: именованные сущности, системы выделения именованных сущностей, Томмита-парсер.

 

Современное общество находится на такой стадии развития, когда информационные потоки и их накопление в мире увеличиваются ежегодно огромными темпами. Человек нашего времени уже не может обходиться, например, без Интернета. Но при поиске той или иной информации потребитель сталкивается с определенными трудностями, такими как: нечеткая  формализованность запросов, зачастую некоторые информационные источники слабоструктурированны, а также сама сеть Интернет не воспринимает напрямую человеческий язык, так как это компьютерная вычислительная система, поэтому часто результатом поиска становится большой объем информации по схожей тематике, а не четкий ответ на заданный вопрос. Именно по этой причине обработка текстовой информации является важным направлением развития во многих отраслях человеческой деятельности. В связи с этим появилась необходимость в автоматизированном анализе текстов, когда происходит автоматическое извлечение структурированных данных из неструктурированных или слабоструктурированных источников и поиск, обработка информации на естественных языках.

Задачи автоматизированного анализа информации на естественных языках – это прежде всего разведение информации по категориям, извлечение самой информации, ее информационный поиск, обработка этой информации, и в завершении - разработка средств представления информации для конечного пользователя.

При разведении информации по категориям текст относится к одной или нескольким темам. Яркий пример такой категоризации информации - фильтрация спама. Извлечение самой информации и информационный поиск – это поиск неструктурированных данных по конкретным критериям с дальнейшим их преобразованием. На сегодняшний день уже существующие электронные поисковые системы в мире решают данную задачу.

В частности, компьютерная лингвистика занимается обработкой информации, а созданные электронные библиотеки и словари - это модели средств представления и обработки информации.

Коротко ознакомимся с одной из подзадач обработки текстов и извлечения их них информации - это извлечение именованных сущностей (Named Entity Recognition, NER). Именованной сущностью считается слово или словосочетание, предназначенное для конкретного и вполне определенного предмета или явления, выделяющего этот предмет или явление из ряда однотипных предметов или явлений [2]. Иными словами, извлечь именованные сущности – это значит распознать и выделить слова или словосочетания в тексте, провести классификацию выделенных именованных сущностей по конкретным категориям. Пример классов именованных сущностей: собственные имена людей, названия организаций и другие. К сожалению, большая часть выделения именованных сущностей разработана на европейских языках, таких как  английский, немецкий и даже испанский. Наверное, эти языки лучше изучены с точки зрения компьютерной лингвистики [1].

Наиболее известной и одной из первых систем извлечения именованных сущностей является GATE (General Architecture for Text Engineering) [3]. Эта система имеет удобный пользовательский интерфейс. Второй пример системы извлечения именованных сущностей является Stanford Named Entity Recognizer [4]. В этой системе реализовано машинное обучение выделять именованные сущности, а также можно самостоятельно переформатировать алгоритмы под задачи пользователя. Можно также в контексте данной статьи упомянуть систему Abbyy InfoExtractor SDK [5]. Эта система в первую очередь создана для разработчиков. Она автоматически выделяет не только стандартные типы именованных сущностей, как персона, организация и местоположение, но выделяет такие типы, как дата, возраст, продолжительность и название событий.

В отличие от действующих разработок выделения именованных сущностей из текстов на европейских языках, на русском языке их  существенно меньше. Тем не менее, такие инструменты есть. Это инструмент для извлечения структурированных фактов из текстов на Томита-парсер – разработка российской компании Яндекс [6]. Ее особенность в том, что извлечение указанных фактов производится при помощи словарей ключевых слов и контекстно-свободных грамматик. Парсер может позволить написать свою собственную грамматику, добавить свои словари и запустить их на текстах. Есть еще одна система выделения именованных сущностей из текстов на русском языке PullEnti SDK [7]. Эта система состоит из вручную составленных правил, она выделяет не только стандартные классы именованных сущностей, но может также предоставить взаимосвязи объектов. В этой системе проанализированы нормативно-правовые акты, происшествия, названия или заголовки статей, подключены внешние словари. Можно упомянуть и высокоскоростную систему лингвистического анализа текстов модульного типа Eureka Engine [8]. Эта система не только извлекает факты из неструктурированных данных огромных объемов, но и автоматически определяет язык текстов.

Данная статья не ставит задачу проанализировать все существующие системы выделения именованных сущностей из текстов на русском языке. Но, по моему мнению, основной вывод уже можно сделать такой, что самыми надежными являются те системы, которые используют составленные вручную правила [2], так как эти правила основываются на грамматике языка, словарях, в которых происходит поиск. Метод, основанный на правилах, дает более точные результаты, тем не менее он требует разработки и постоянной поддержки большого количества правил и словарей.

 

СПИСОК ЛИТЕРАТУРЫ:

 

Брыкина, М.М. Извлечение и идентификация именованных сущностей с использованием словарей в русском языке // М.М. Брыкина, А.В.Файнвейц, С.Ю. Толдова // Актуальные инновационные исследования: наука и практика. – 2013. – № 1.

Nadeau, D. A survey of named entity recognition and classification / D.Nadeau, S. Sekine // Linguisticae Investigationes. – Amsterdam, Netherlands: JohnBenjamins Publishing Company, 2007. – 1: Vol. 30. pp. 3-26.

General Architecture for Text Engineering [Электронный ресурс]. URL: http://www.gate.ac.uk/ (дата обращения: 01.07.22).

The Stanford Natural Language Processing Group. Stanford Named Entity Recognizer (NER) [Электронный ресурс]. URL: https://nlp.stanford.edu/software/CRF-NER.html (дата обращения: 02.07.22).

Abbyy InfoExtractor SDK [Электронный ресурс]. URL: https://www.abbyy.com/ru-ru/infoextractor/. – Заглавие с экрана.

Томита-парсер [Электронный ресурс]. URL: https://tech.yandex.ru/tomita/ (дата обращения: 05.07.22).

PullEnti SDK [Электронный ресурс]. URL: http://www.pullenti.ru/Default.aspx (дата обращения: 10.07.22).

Eureka Engine [Электронный ресурс]. URL: http://eurekaengine.ru/ru/ (дата обращения: 11.07.22).

 

Kuzmin A.D.

4th year student of the Department of Information Systems and Technologies

Moscow State Technological University "STANKIN"

(Russia, Moscow)

 

SYSTEMS FOR EXTRACTING NAMED

ENTITIES FROM TEXTS

 

Abstract: this article describes the systems for selecting named entities, as well as the conclusions on the basis of which one can judge the quality of the above systems.

 

Keywords: named entities, named entity extraction systems, General Architecture for Text Engineering, Abbyy InfoExtractor SDK, Tommit parser.

  


Полная версия статьи PDF

Номер журнала Вестник науки №7 (52) том 3

  


Ссылка для цитирования:

Кузьмин А.Д. СИСТЕМЫ ВЫДЕЛЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ ТЕКСТОВ // Вестник науки №7 (52) том 3. С. 60 - 64. 2022 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/6051 (дата обращения: 29.03.2024 г.)


Альтернативная ссылка латинскими символами: vestnik-nauki.com/article/6051



Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ?
- напишите письмо в редакцию журнала: zhurnal@vestnik-nauki.com


Вестник науки СМИ ЭЛ № ФС 77 - 84401 © 2022.    16+




* В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.