Глава 2. Информация.

Из кн.: Coiera E., Guide to health informatics. Arnold, London, 2003.- 440 p.

Множественное число от слова факт – это не информация.

Для того чтобы жить в современном мире, нам необходимо принимать решения, а для того чтобы принимать решения, необходимо иметь информацию, которая позволяет нам выбирать один путь и не выбирать другой. В данной главе мы познакомимся с основными понятиями, которые определяют понятие, что же означает информация. Вне зависимости от того, передается ли информация во время разговора, присутствует ли она в рукописных записях или хранится в памяти компьютера, одни и те же основные принципы управляют тем, как информация структурируется, и как она используется. Представленные здесь идеи базируются на идеях о моделях. Мы рассмотрим несколько простых способов, как взаимодействуют друг с другом модели данной информации. В настоящий момент должно быть также очевидно, что модели и информация являются основой не только области изучения информатики, но они являются также основой всей медицины и здравоохранения.

2.1. Информация является производным данных и знаний.

Можно неформально сказать, что мы получили информацию в том случае когда, то, что мы знаем изменилось. В некотором смысле эта информация должна быть измеримой, поскольку интуитивно мы считаем, что некоторые источники информации лучше, чем другие. Одна газета может быть более информативной, чем другая; история болезни пациента может быть полна новых данных, но для врача, который видит пациента каждый день, она содержит крайне небольшое количество новой информации. Формально информация связана с концепциями порядка и новизны. Чем больше в документе порядка, тем больше «информации» он содержит. Например, история болезни пациента, которая разбита на определенные разделы, такие как: анамнез заболевания, аллергический анамнез и т.д. является более информативной, чем неструктурированное изложение, которое перечисляет различные факты, представленные пациентами. Аналогичным образом, если история болезни не содержит ничего нового, то в этом случае она не дает никакой новой информации. Можно в действительности разработать статистические показатели количества «информации», которые передаются из определенного источника, используя то, что известно под названием информационная теория. Однако статистические измерения информации не очень то помогают нам, когда нам необходимо понять информацию таким образом, как мы обычно понимаем эту концепцию.

Термины – такие как данные, информация и знания, часто используются в обычной речи одни вместо других. Каждый из этих терминов в информационных науках, однако, имеет достаточно четкое и очерченное определение:

Данные состоят из фактов. Факты – это наблюдение или измерение, которые были сделаны в реальном мире. Например, «сегодня вторник», «артериальное давление у пациента 125/70 мм рт.ст.», или «аспирин – это нестероидное противовоспалительное средство».
Знания определяют взаимоотношения между данными. Правило «курение табака вызывает рак легких», или «если артериальное давление у пациента превышает 135/95 мм рт.ст. при трех раздельных измерениях, то тогда у пациента наблюдается повышенное артериальное давление» является примерами знаний. Подобные знания появляются за счет идентификации повторяющихся характеристик, присутствующих в данных, например, у большого количества различных пациентов. Мы выясняем, что событие обычно возникает в определенной последовательности, или что действие обычно производит специфический эффект. За счет процесса построения абстрактной модели эти наблюдения затем кодируются в некие общие правила о том, как работает мир.
Точно так же, как изучение подобной генерализованной «истины» по поводу мира в целом, мы также можем разработать знания, которые будут являться специфичными для определенных условий. Например, мы можем создать пациент-специфические знания, наблюдая за состоянием пациента на протяжении некоего периода времени. Находя повторяющуюся схему в том, что происходит, мы можем получить специфические знания, например такие, как «после применения гипотензивных средств на протяжении последних двух месяцев у пациента не снизилось артериальное давление».
Информация получается за счет применения знаний к данным. Таким образом, данные «уровень артериального давления у пациента 125/70 мм рт.ст.» дает нам некую информацию, если оно нам сообщает что-то новое. В контексте ведения пациента с высоким артериальным давлением, используя наши общие знания медицины, специфические знания о пациенте и факты, мы можем придти к выводам о том, что артериальное давление у данного пациента теперь контролируется.

Можно понять каким образом все эти три концепции связаны друг с другом. При использовании знания в данном контексте, данные интерпретируются для того, чтобы привести к появлению информации. Другой пример может сделать эту идею еще более доступной для понимания. Представьте себе, что кто-то разговаривает с вами на языке, которого вы не понимаете. Вы можете получить большой объем данных во время подобного разговора, но поскольку вы не знаете языка, он для вас бессмыслен, вы не можете сказать, что вы получили, какую бы то ни было информацию.

Поскольку эти идеи находятся в основании информатики, нам необходимо глубже понимать эти взаимоотношения. Для этого нам окажется полезной концепция моделей.

2.2. Модели построены из символов.

Знания могут рассматриваться как набор моделей, которые мы построили для того, чтобы понимать и взаимодействовать с миром. Иногда эти модели являются физическими аналогами реальных вещей. Например, уменьшенная модель города передает в миниатюре некоторые физические аспекты настоящего города. Изображение, записанное на фотографическую пленку, – это прямая физическая модель объекта, который был запечатлен на этой пленке. Часто знания хранятся в головах индивидуумов. С развитием языка и письменности стало возможным переносить эти модели и превращать их из чисто умозрительных концепций во что-то, что мы могли бы изучить и манипулировать этим в физическом мире.

Например, карта прогноза погоды пытается описать процессы, которые абсолютно не выглядят похожими на их графическое изображение. Если мы перейдем к науке и математике, то увидим, что очень часто модели создаются в форме диаграмм или уравнений, все эти модели создаются из набора символов, где символы представляют собой некую форму пометок, которые по общему соглашению представляют нечто иное. Когда люди говорят о знаниях, они обычно имеют в виду этот тип символических моделей и это как раз та идеология, на которой будет базироваться понятие знаний, используемых в данной главе.

Фундаментальной характеристикой всех символических моделей является то, что они сами по себе не имеют никакого внутреннего значения. Для ребенка уравнение e = mс² является абсолютно бессмысленным до тех пор, пока каждая буква в этом уравнении не будет обозначена и концепция, которую он описывает не будет понята. Эта формула также будет бессмысленной, если ребенок не понимает математических операций, связывающих каждую из этих концепций. Аналогичным образом может быть абсолютно загадочной карта погоды.

Символические модели получают свое значение, когда мы связываем концепции с индивидуальными символами, особенно если символические модели строятся с использованием известной терминологии и набором взаимоотношений между ними – или грамматикой (рисунок 2-1). Вместе терминология и взаимоотношения между терминами представляют собой язык. В информационных науках язык, который используется для создания модели, обычно базируется на логике или на математике.

Терминология содержит все символы, которые могут использоваться при построении модели, а также связывает эти символы с определенными концепциями. Например, в здравоохранении мы имеем специфические слова или термины, обозначающие наблюдаемые события, такие как заболевание или методы лечения. Термин «стенокардия» представляет собой набор данных, которые мы можем наблюдать у пациента.

Набор взаимоотношений, которому мы позволяем существовать среди набора символов так, что они могут быть организованы в некую значимую последовательность, называется грамматикой. В английском языке, например, грамматика позволяет связывать слова несколькими стандартными способами, и другие люди могут понять смысл последовательности слов.

Рисунок 2-1. Символические модели не могут быть поняты, если символический язык и возможные взаимоотношения между символами не понимаются людьми.

Терминология – стандартный набор символов или слов, которые используются для того, чтобы описать концепции, процессы и объекты в данной области исследования.

Грамматика – набор правил, которые взятые вместе, описывают допустимые способы комбинации последовательности символов в данном языке.

2.3. Выводы делаются на основании интерпретации данных в соответствии с определенной моделью.

Мы используем символические модели для того, чтобы обдумывать окружающий нас мир. Мы применяем символические модели для данных, которые были получены во внешнем мире, и пытаемся придти к неким заключениям о том, что происходит в этом мире. Юристы исследуют данные в форме деталей, случаев их клиентов зная закон, и приходят к выводам о том, насколько велика вероятность того, что их клиент успешно пройдет сквозь судебные слушания. Клиницисты получают данные в форме наблюдения за пациентами и измерений, и они используют свои знания о заболеваниях и о терапии для того, чтобы придти к выводу о том, какие заболевания могут быть у пациента, и какова будет наиболее адекватная последовательность действий.

Процесс интерпретации данных обычно требует три различных типа модели, точнее, нам необходима база данных, база знаний и процедура вывода. Давайте посмотрим на каждую из них по очереди.

Интерпретация начинается со сбора данных. Данные могут быть цифрами, полученными в результате лабораторного исследования. Цифры сами по себе – это просто символы, которые сами не имеют никакого самостоятельного смысла, аналогичным образом, как точки на графике не имеют никакого смысла пока на оси не нанесены метки (рисунок 2.2). Поэтому необходима терминология, а каждый факт связывается с меткой или термином, присутствующими в данном терминологическом словаре. Например, число 7.49 связано с меткой «рН», и поэтому мы можем получить факт «рН = 7.49».

Рисунок 2.2. Данные невозможно интерпретировать в отсутствии языка, который определяет, что означает каждая цифра или каждый кусочек данных.

Рисунок 2.3. Данные интерпретируются на основании модели данных, базы знаний и правил вывода.

Набор меток и взаимоотношений в информационной системе называется моделью данных. Вместе набор данных и связанных с ними моделей, называется базой данных.

Процесс интерпретации также требует специфических знаний о различных путях, при помощи которых связаны друг с другом концепции, содержащиеся в базе данных. Например, можно следующим образом связать друг с другом лабораторные результаты, полученные у пациента (рисунок 2.3).

Правила подобные тому, что «если рН больше 7.4, то тогда он аномально высок», или «если обнаруживается ацидоз, то его необходимо лечить внутривенным введением карбоната натрия», может являться частью знаний врача о физиологии кислотно-щелочного равновесия. Набор подобных правил может рассматриваться как база данных, содержащая в качестве элемента знания, или база знаний.

Точно также как база данных требует существования модели данных для того, чтобы данные, содержащиеся в ней, стали бы понятными, база знаний требует модели знаний, или онтологию, для того чтобы ее концепции стали понятными. В упрощенном виде антология может рассматриваться как словарь всех возможных концепций, которые могут присутствовать в базе знаний и всей возможных путей, которыми данные концепции могут оказаться связанными друг с другом. Например, «лечение», «заболевание», «рН», «пенициллин» и «ацидоз» все могут являться элементами нашей антологии кислотно-щелочного равновесия. Антология может также указывать, что правила должны быть в определенной форме «если заболевание, то тогда лечение», что не позволит нам создавать бессмысленные правила, например, «если пенициллин, то тогда ацидоз».

Антология – набор концепций, которые понимаются в данной базе знаний и правила о том, как эти концепции могут объединяться.

Ну и, наконец, когда мы начинаем применять наши знания для наших данных необходимо иметь третью модель, которая будет содержать правило вывода, и которая будет описывать, как мы применяем базу знаний к базе данных для того, чтобы сгенерировать ответ. Например, правила вывода могут говорить, что положение в форме « если Х, тогда Y» означает, что когда мы знаем, что Х истина, мы можем также поверить в то, что Y истина. Данный пример известен, как логическая дедукция и одно из нескольких различных правил логики, которые могут использоваться для того, чтобы приходить к выводам. Имеется много разных методов выводов, кроме классической логики. Эпидемиологи базируют свои выводы на основании правил статистики, адвокаты базируют правила на основании прецедентов, появившихся в предшествующих делах.

Технически мы можем сказать, что модель данных и антология предоставляют грамматику и синтаксис, которые определяют взаимоотношения между понятиями. Правило вывода затем используется для того, чтобы интерпретировать значения или семантику данных.

2.4. Допущения в модели определяют пределы знаний.

В предшествующих разделах мы видели, что допущения, сделанные в тот момент, когда создается модель, могут повлиять на то, как она используется. То, каким образом конструируется модель, контекст, в котором она определяется, содержание, которое мы в нее включаем, и цель, для которой она создается, все это влияет на ее полезность. Это также справедливо для моделей, определяющих наши знания о внешнем мире, соответственно, отсюда следует, что выводы, к которым мы можем придти на основании модели, во многом находятся под влиянием тех допущений, которые были сделаны, когда данная модель создавалась.

Например, в настоящий момент в клинических протоколах достаточно часто используются стандартные способы лечения определенного заболевания. Подобный протокол является неким типом шаблонной модели, которая определяет, каким образом пациент будет лечиться.

Когда создается протокол, его разработчики должны сделать достаточно много допущений, не все из которых на момент создания очевидны, даже для создателей. Например, разработчики протокола могут сделать некие допущения, о том какие, из включенных в протокол лекарственных средств, и какое оборудование окажутся под рукой у врача, который будет проводить лечение.

То, что действительно делается при подобных допущениях, заключается в том, что они в качестве модели принимают те условия, в которых они предполагают, что будет работать протокол. Это обычно их собственная больница, и только когда от разработчика протокола требуется консультация с другими людьми, находящимися в иных условиях, подобные предполагаемые допущения внезапно раскрываются. Это связано с тем, что протокол становится менее полезным в том контексте, в котором эти не высказанные допущения не работают.

Таким образом, протокол, созданный для хорошо оборудованного современного госпиталя, вряд ли окажется полезным для клиники первичной помощи. Аналогичным образом протокол может создаваться на основе допущения о том, что у пациента нет других заболеваний. В случае индивидуального пациента данное допущение может обнаружиться, и тогда не сможет быть использована терапия, рекомендуемая протоколом, поскольку она должна взаимодействовать с другими лекарственными средствами, получаемыми этим пациентом.

Помня об этих примерах, мы можем проанализировать создание и применение знаний в той же форме, как и цикл создания и применения моделей, описанный в предыдущей главе (рисунок 2.4). Во-первых, процесс создания модели эквивалентен процессу приобретения знаний. Наблюдения, которые проводятся в реальном мире, генерализуются и превращаются в модель, которая описывает, как различные части этого мира связаны друг с другом. Вспомните, что подобные модели всегда ограничены, поскольку они базируются на одних наблюдениях и игнорируют другие.

Затем построенная модель знаний применяется к новым данным. Мы можем рассматривать этот процесс, как создание процесса вывода на основании шаблонной модели, которая представляет наши знания, и набора данных. Как мы только что видели, предположения, которые делаются на стадии создания модели, могут оказать влияние на то, как она будет использоваться.

Одним определенным допущением, связанным с символическими моделями, является их язык. Точно так же, как фотографический слайд не может быть использован, если отсутствует проектор, символическая модель не может использоваться, если нет языка, описывающего взаимоотношения между компонентами модели. Иными словами, язык, на котором проводится моделирование, становиться допущением модели, и должен четко описываться при использовании этой модели.

Рисунок 2.4. Знания приобретаются с помощью конструирования модели, и затем эти модели применяются для интерпретации значимости данных.

Таким образом, создатель протокола лечения должен сделать допущения о том, как будет интерпретироваться содержание протокола. Создатели протокола должны предположить, что люди, которые будут читать протокол, смогут понять язык протокола и, построенные на этом языке, инструкции. Если клиницист не знает терминов, содержащихся в протоколе, и он не знаком с концепциями и принципами, на которых он базируется, тогда он вряд ли сможет следовать идеям, заложенным при создании протокола.

Врезка 2.1. ДНК это просто данные.

Концептуализация информационной системы, как разделенные на знания данные и их интерпретация, имеет определенную универсальность. В особенности в биологии имеется достаточно серьезная информационная парадигма, которая является следствием нашего понимания роли ДНК.

С момента, когда начали понимать структуру и функцию ДНК, ДНК стала рассматриваться как некоторая форма исходной молекулы, которая диктует развитие индивидуального организма. Доктрина ДНК по всей вероятности достигла своего наивысшего развития в идее эгоистичного гена (Dawkins, 1982). В ней ДНК характеризуется как молекула, которая надевает на себя клетку, и таким образом эта клетка позволяет ДНК выжить и переходить от одного поколения к другому. ДНК при подобном взгляде на мир создает и диктует развитие и активность организма. Фенотип организма не что иное, как машина для выживания, используемая геномной последовательностью.

Имеется и другой взгляд, который рассматривает ДНК, как часть значительно более сложной системы ДНК среди наименее реактивных и химически инертных молекул в биологии, поэтому она великолепно подходит для своей роли, которой является хранение инструкций, аналогично чипам памяти в компьютере. ДНК – это некий вид базы данных и ничего более.

Таким образом, хотя ДНК и сохраняет модели, используемые для создания белка, она самостоятельно не способна создать, чтобы то ни было. Это не что иное, как клеточный компонент, который определяет, какие белки будут производиться. Хотя часто говорится, что ДНК производит белки, на самом деле белки производят ДНК (Lewontin, 1993).

Символический язык ДНК, и таким образом способность интерпретировать ДНК, находится в окружающей клеточной структуре, без этих молекул не будет никакого способа расшифровать символическое знание ДНК – данные, хранящиеся в ДНК, окажутся не интерпретируемыми. Иными словами, ДНК организма не имеет никакого смысла, за исключением пределов контекста тех клеточных структур, в которых она содержится.

Таким образом, мы можем рассматривать сложный организм, как результат интерпретации клеткой данных, хранящихся в базе данных ДНК, с использованием языка закодированного в белках и внутри контекста данных, обеспечиваемых меж и внутри клеточным окружением.

2.5 Аналитические модели позволяют автоматизировать интерпретацию данных.

Жизнь в мире требует от нас принятия решений. Если могут быть записаны компоненты знаний и данных любой проблемы принятия решений, тогда принципиально проблема может быть решена с использованием компьютера. Иногда работа по интерпретации данных для определенной проблемы осуществляется человеком и компьютером вместе. Например, компьютер может организовать и связать данные в графическое представление, а человек затем исследует обработанные данные и проводит окончательную интерпретацию.

Пропорция, в которой модели могут храниться либо в компьютере, либо как мысленные модели в голове человека, определяет, где происходит интерпретация. Таким образом, компьютерные системы формируют спектр от тех, которые не помогают в интерпретации данных к тем, что могут производить достаточно сложную интерпретацию в пределах определенной задачи (рисунок 2.5).

Рисунок 2.5. Люди и компьютеры могут разделить сложности интерпретации данных. Объем интерпретации данных, передаваемых компьютеру, зависит от того, насколько интерпретационная модель может быть описана на том языке, который понимается, как компьютером, так и человеком.

Компьютеры могут выступать в качестве хранилища данных.

Если компьютер используется только как инструмент для хранения данных, он действует в качестве базы данных. Данные организованы в соответствии с моделью данных таким образом, что источник каждого кусочка данных, каждого факта может быть легко идентифицирован. Медицинские данные часто состоят из изображений или физиологических сигналов, записанных мониторирующими устройствами, и могут занимать огромные объемы. Как следствие базы данных, хранящие сложные данные о пациентах, могут оказаться очень большими.

Компьютеры могут генерировать представления данных, облегчающих интерпретацию.

В противоположность пассивным базам данных, компьютер может выполнять некоторую работу по интерпретации путем того, что он генерирует специфическое представление данных. В данном случае, учитывая большие объемы данных, компьютер демонстрирует пользователю только определенную часть данных, которая является наиболее интересной и наилучшим образом подходит для решения данной задачи.

Представьте себе базу данных, которая хранит в себе библиографические данные и резюме статей, опубликованных в медицинских журналах. Учитывая тот факт, что еженедельно публикуются тысячи статей, в подобной базе данных было бы абсолютно безнадежно для исследователя просматривать каждую запись. Оказалось бы практически невозможным найти именно ту статью, которая его интересует. Для исследователя требуется такое представление данных, которое бы позволило просмотреть только определенный поднабор данных, соответствующих интересам исследователя.

Для компьютерной системы предоставление подобного «вида» данных, сохраненных в компьютере, требуется, чтобы модель потребности пользователя была сообщена компьютеру. Это общение между базой данных и человеком может происходить путем, известным под названием языка запросов (query language). Это метод, который очень часто используется для поиска в каталогах библиотек. Используя специальные слова, такие как «и», «или» и «нет» пользователь может сконструировать запрос к системе о том, какие элементы он хотел бы видеть выведенными на экран. Поскольку система распознает только определенные слова и их значения, система анализа запросов может отобрать подобные записи из базы данных и предоставить их пользователю.

Физиологическое мониторирование, которое используется для отслеживания состояния пациента, также является неким аналогом системы просмотра информации. Клиницист, просматривающий сходные данные, которые идут от измерительного устройства, такого как, например, электрокардиограф, столкнется с потоком быстро изменяющихся цифр, которые являются абсолютно бесполезными в клинических условиях. Ролью монитора является представление данных, получаемые сенсором, таким образом, чтобы была возможность разумно проанализировать эти данные. В данном случае для таких показателей как электрокардиограмма, представление данных будет заключаться в том, что будет нарисован набор пиков и зубцов, или выведены средние цифровые значения для таких измерений, как артериальное давление. Для того чтобы выполнить подобную задачу, компьютер должен иметь модели сигналов, и кроме того, должен иметься набор показателей, указывающих какой вид шумов или артефактов может повлиять на этот сигнал. Кроме того, необходима модель предпочтительных способов демонстрации сигнала, которая бы позволила людям выполнять интерпретацию. Тот же самый процесс возникает и в случае изображений, генерируемых компьютером. Компьютерная томография и ядерно-магнитно-резонансная томография, например, зависят от достаточно сложных моделей, реконструирующих исходные данные в изображение, которое может интерпретироваться клиницистами. Варьируя параметрами модели, примеряемых для данных, системы построения изображений могут строить различные виды или «срезы» на основании «сырых» исходных данных.

В целом степень разделения ответственности по интерпретации данных между человеком и компьютером может варьировать по целому ряду причин. Может оказаться, что чрезвычайно сложно формализовать все знания, используемые для интерпретации данных, или может быть усилия, необходимые для того, чтобы создать модель, превышают полезность этой модели. Подобное часто наблюдается, когда проблема встречается относительно редко или весьма вариабельна.

Компьютеры могут отвечать за интерпретацию всех данных.

По мере того как развивалось понимание, как знание может быть представлено в компьютере, вскоре стало очевидным, что компьютеры могут использоваться для того, чтобы достаточно хорошо анализировать данные и приходить к определенным выводам.

Подобные компьютерные интерпретации могут происходить в режиме реального времени. Например, водитель ритма может анализировать электрическую активность сердца и отслеживать развитие аритмии. Компьютеры часто используются для того, чтобы контролировать те решения, которые принимаются людьми. Например, в сложных и критических ситуациях, таких как при работе на атомной электростанции, для человека полезно наблюдение компьютера за этой сложной системой, получается как бы «вторая пара глаз», которые глядят из-за плеча оператора. Компьютеры также используются для интерпретации данных тогда, когда задачи являются рутинными, но возникают с настолько высокой частотой, что автоматизация может оказаться полезной. Распространенным примером подобного использования компьютеров является автоматическая интерпретация лабораторных тестов, хотя обычно человек контролирует результаты подобной интерпретации.

Во всех этих случаях интерпретирующий компьютер не просто имеет доступ к данным и знаниям, которые используются для интерпретации данных, ему также требуется модель того, каким образом компьютер будет «думать» по данной проблеме. Выражаясь более точно -компьютер требует представления правил интерпретации, которые были обсуждены ранее. Например, компьютерная «машина выводов» может использовать правила формальной логики – большинство систем знаний построены подобным образом. Иногда система базируется на правилах математики, вероятности или других современных техниках, таких как нейронные сети.

Выводы

В этой главе мы использовали идею модели для того, чтобы помочь в понимании того, что означает информация. С приведением более четких определений данных информации и знаний стало возможным посмотреть на то, как они взаимодействуют друг с другом, и придти к более полному пониманию того, каким образом люди приходят к заключениям, например о том, какую роль в клетке играет ДНК.

Эти две главы являются прелюдией к третьей фундаментальной концепции информатики - идеи системы. В следующей главе будет обсуждена концепция системы и будет объяснено, что означает создание информационной системы. Таким образом, можно начать понимать те пути, при помощи которых информационные системы могут оказаться полезными, а также понять некоторые из ограничений информационной системы.