'
Салахов Р.К.
ПРИМЕНЕНИЕ ЗАКОНА ИСКАЖЕНИЯ ИНФОРМАЦИИ ДЛЯ ОПРЕДЕЛЕНИЯ ФУНКЦИОНАЛЬНЫХ ПОКАЗАТЕЛЕЙ КАЧЕСТВА ДАННЫХ ИНФОРМАЦИОННОЙ СИСТЕМЫ *
Аннотация:
в работе предложен метод определения влияния субъективных характеристик на показатели качества данных объектов информационной системы с помощью закона искажения информации
Ключевые слова:
качество данных, качество информации, достоверность информации, пользователь данных, управление данными
УДК 004.05
Салахов Р.К.
ФГБУ «ГНМЦ» Минобороны России
(г. Мытищи, Россия)
ПРИМЕНЕНИЕ ЗАКОНА ИСКАЖЕНИЯ ИНФОРМАЦИИ
ДЛЯ ОПРЕДЕЛЕНИЯ ФУНКЦИОНАЛЬНЫХ ПОКАЗАТЕЛЕЙ
КАЧЕСТВА ДАННЫХ ИНФОРМАЦИОННОЙ СИСТЕМЫ
Аннотация: в работе предложен метод определения влияния субъективных характеристик на показатели качества данных объектов информационной системы с помощью закона искажения информации.
Ключевые слова: качество данных, качество информации, достоверность информации, пользователь данных, управление данными.
Определение качества данных (КД) информационной системы (ИС) является сложной задачей, требующей совместной работы специалистов из различных областей, таких как информатика, статистика и аналитика. Но оно является важной составляющей успешного развития организации и принятия обоснованных решений. В больших распределенных базах данных (БД), где хранится разнообразная и сложная информация об объекте анализа, оценка функциональной пригодности информации в БД представляет собой сложную систему для измерения и сопоставления требуемым значениям атрибутов качества.
В настоящее время нет единого стандарта оценки КД, так как требования отличаются даже в структурных подразделениях одной организации и разнообразны от проекта к проекту. Для данных подразделений разрабатываются свои структуры и политики для сбора, организации, управления и определения КД в соответствии с их конкретными потребностями.
На практике КД обеспечивается путем проведения оценок и интерпретации различных показателей, таких как точность, релевантность, непротиворечивость, полнота, достоверность, временные рамки и т.д. Затем аналитики данных проводят общую оценку КД, чтобы показать реальное значение набора данных.
Одна из проблем, с которыми сталкиваются при управлении КД, заключается в том, что ожидания относительно КД не всегда ясны, а КД, в первую очередь, должно определятся как соответствие потребностям и ожиданиям конкретных конечных пользователей (ККП). Иногда потребители просто не могут четко сформулировать свои требования. Иногда люди, ответственные за управление данными, не осознают, что к данным могут быть применимы специфические требования. Тем не менее, для того чтобы данные были надежными и достоверными, специалистам по управлению данными необходимо сделать все возможное для наилучшего понимания требований пользователей данных.
Это должно происходить постоянно, в процессе жизни ИС, так как требования к данным и качеству данных меняются так же динамично, как и потребности и приоритеты в деятельности организации, которые, в свою очередь, зависят от переменчивых внешних сил и условий.
Оценка качества функциональной пригодности ИС может быть основана на том, насколько полно и точно БД покрывает цели, назначение и функции системы, а также на доступности информации для конечного пользователя. На практическом уровне функциональная пригодность БД ИС может быть определена путем измерения таких показателей КД как полнота описаний объектов (ПНО) и их достоверность.
Значение ПНО (M) – относительное число, определяющее количество введенных элементов данных измеряемого объекта (ИО) оператором ввода данных (ОВД) к общему количеству возможных элементов данных об ИО:
где k – общее количество введенных ОВД элементов данных об ИО, n – общее количество элементов данных об ИО.
Значение достоверности трудно переоценить и оно является одним из наиболее важных свойств информации, Несмотря на очевидное утверждение, что обладателем самой достоверной информацией, менее подверженной ошибкам при вводе данных, является владелец этой информации первой очереди, необходимо подчеркнуть, что он, как правило, еще и не склонен к ее искажению. При этом искажение информации является субъективным показателем и его необходимо рассматривать в рамках закона искажения информации.
Сформулировать закон искажения информации для информационной системы можно как утверждение, что вероятность ошибки ввода данных прямо пропорциональна очередности приобретения информации оператором ввода данных. Другими словами, чем позже оператор получает информацию, тем выше вероятность возникновения ошибки.
Как следствие, достоверность информации обратно пропорциональна вероятности возникновения ошибки. Если данные были введены правильно с самого начала, то они считаются более достоверными, чем данные, которые прошли через несколько этапов обработки и могли быть подвержены ошибкам. Происходит так потому, что, как правило, информация передаётся не напрямую, а через несколько посредников – звеньев одной организации. Чем больше людей участвуют в передаче информации, тем выше степень искажения её первоначального смысла. При этом он может меняться в разных направлениях: может произойти как преуменьшение, так и преувеличение фактов.
Для информационной системы разумно использование такой дополнительной субхарактеристики, отражающей функциональные требования по КД к системе в целом, как качество информации (КИ). Коэффициент КИ выразим через среднее значение достоверности введенных элементов данных:
где Gi – очередность получения информации ОВД введенного i-го элемента данных об ИО.
В случае, когда значения КИ и ПНО являются равными по влиянию на КД информационной системы получим коэффициент КД равный:
Так как, в классическом понимании, под КИ подразумевается мера ценности, которую данная информация представляет для конечного пользователя этой информации, необходимо определение отношения весового показателя ценности информации для ККП к значению достоверности этой информации. Таким образом коэффициент КИ для ККП информации приобретает вид оценки полноты и достоверности данных об ИО:
где L – оценка полноты и достоверности данных об ИО для ККП, Bi – весовой показатель ценности i-го элемента данных об ИО для ККП (условное целое значение в диапазоне от 1 – не представляет ценность до 5 – представляет большую ценность), Gi – очередность получения i-го элемента данных об ИО (при отсутствии i-го элемента данных об ИО Gi=5). Значение L≤1 является недопустимым, и говорит о том, что информация в БД об ИО для ККП не представляет ценности, а L≤2 для ККП означает неудовлетворительное КИ.
Таким образом, для ККП данных значение ПНО будет оказывать на КД влияние соразмерное ценности этих данных, а общий показатель КД информационной системы в части ИО примет вид:
где Li – оценка полноты и достоверности данных об ИО для i-го пользователя данных об ИО, r – общее количество пользователей данных об ИО.
Важно отметить, что значения весового показателя могут быть уникальными для каждой организации и проекта. Поэтому необходимо данный показатель определять учитывая специфику организации и ее цели.
В заключение, набор данных функциональные показатели КД может послужить инструментом для использования организациями в целях понимания ценности и актуальности данных. Таким образом, аналитики данных могут принять решение о том, будут ли использовать эти данные для планирования и внедрения того или иного проекта, обеспечивая при этом повышение ценности для конечных пользователей.
СПИСОК ЛИТЕРАТУРЫ:
Номер журнала Вестник науки №12 (69) том 5 ч. 2
Ссылка для цитирования:
Салахов Р.К. ПРИМЕНЕНИЕ ЗАКОНА ИСКАЖЕНИЯ ИНФОРМАЦИИ ДЛЯ ОПРЕДЕЛЕНИЯ ФУНКЦИОНАЛЬНЫХ ПОКАЗАТЕЛЕЙ КАЧЕСТВА ДАННЫХ ИНФОРМАЦИОННОЙ СИСТЕМЫ // Вестник науки №12 (69) том 5 ч. 2. С. 146 - 151. 2023 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/12170 (дата обращения: 12.12.2024 г.)
Вестник науки СМИ ЭЛ № ФС 77 - 84401 © 2023. 16+
*