Шумные данные

В наш цифровой век все более актуальной становится проблема цифрового шума.

В наш цифровой век все более актуальной становится проблема цифрового шума. Все больше и больше данных уходит «в компьютер», и, как следствие, возникают внешне упорядоченные тонны цифр, которые выстраиваются во вроде бы логичные цепочки... Правда, жизнь богаче наших о ней представлений, и зачастую оказывается, что рука об руку с несомненным благом всеобщей цифры идет довольно большое число проблем. Поговорим об этом?

Первое, что нужно отметить, говоря о больших объемах данных, применительно к большому количеству объектов описания (даже однородным) — это то, что они должны быть непротиворечивы, взаимодополняемы и полны. Если же посмотреть на реальную жизнь, зачастую там, где большие данные — большие проблемы с полнотой и непротиворечивостью. Да и взаимодополняемость, скажем честно, хромает... Отчего так происходит? Дело в том, что системы, так или иначе накапливающие данные, в большинстве своем несогласованны. Например, существовала система, содержавшая некий объем данных. Далее, появляется еще одна — в которой находятся данные, частично пересекающиеся с первыми, частично дополняющие их. Затем — третья. И так далее. При попытке свести все воедино, скажем, в аналитических программах, почти наверняка будут расхождения: в одной программе поправили, в другой — нет, часть данных устарела, часть уже неактуальна и т. д. В итоге получается, что одни и те же данные в разных системах начинают противоречить друг другу. Как итог — рождается цифровой шум, как следствие — появляются специальные аналитики, чья основная задача состоит именно в сведении данных и поддержке их актуальности.

Кроме того, встречаются ситуации так называемого минимализма, когда данные описывают только необходимые в конкретной ситуации аспекты объекта, фактически не имея потенциала развития. Но при этом материальная суть этих данных такова, что отказаться от них нельзя.

К сожалению, реальность такова, что работа с большим объемом данных, находящихся в системе продолжительное время, неизбежно приводит к цифровому шуму. Фактически, проектируя ту или иную систему, следует изначально стремиться заложить механизмы, способные свести такой шум к минимуму, и интерфейсы, позволяющие локализовать и исправлять подобные ситуации, а также предусмотреть роль, которая будет решать коллизии в данных.

Кстати, коллизии в данных не обязательно могут иметь логический характер. Физических причин, приводящих к коллизии, также достаточно. Например, данные были записаны на диске, один из секторов которого начал сбоить. Внешне ничего страшного: никаких сигналов и даже проверка диска бодро отрапортовала, что вылечила все, что можно... Но данные уже «побились», в итоге — родилась очередная коллизия. При этом в отличие от коллизий логических коллизии физические имеют меньше шансов на благополучное разрешение: если какая-то запись (или группа записей) в базе данных оказалась «побита», то этого уже не исправить — разве что восстановить данные из бекапа. Но бекап почти всегда «откат по времени», что может привести к потенциальным проблемам, которые нужно решать на уровне разрешения коллизий. Сложно? А кто говорил, что будет просто?

Резервирование — наше все?

Вообще, как только речь заходит о больших объемах данных, особенно остро встает вопрос их резервного копирования. Во-первых, размещение. Совершенно естественно, что большие данные занимают много места. А во-вторых, классическое резервное копирование не спасает от логических ошибок (которые имеют милую тенденцию — накапливаться). Для того чтобы обеспечить логическую сходимость данных, используют периодический бекап. Причем бекапные копии хранятся некоторое количество дней. А с целью снижения места, бекап может быть неполный (инкрементный). Тем не менее на больших объемах даже он способен сыграть значительную роль, особенно если задать достаточную глубину бекапирования.

Вообще, что касается глубины бекапирования, тут вопрос очень непростой. Начнем с того, что если все делать правильно, хранить надо всю историю данных, чтобы при возникновении каких-либо проблем иметь возможность «отмотать цепочку назад» и понять, в чем причина. Понятно, что так никто не поступает: даже в условиях дешевизны носителей информации построение больших дисковых массивов выливается в ощутимые суммы. А потому чаще всего идут «простым логическим путем» — бекап держат за последние несколько дней, максимум за месяц. И пишут историю изменений, перенося, таким образом, ответственность за возможную «кривизну» с компьютера на человека. Мол, кто внес данные — тот за них и отвечает.

Отчасти такой подход верен... но только отчасти. По большому счету, никто не гарантирует, что вносимые данные являются абсолютно верными и валидными. Оператор будет сколь угодно внимательным, внесет все «слово в слово», но оригинал может оказаться неверным. Можно, конечно, сказать, что это слишком заумно и в реальной жизни почти не встречается. Отнюдь, мне приходилось сталкиваться с ситуациями, когда входящие данные не соответствовали тому, что они должны были представлять. Вот например: оптовая компания, приход товара. По действующему процессу поставщик высылает список кодов коробок, с прайсом. При приеме на склад выясняется, что примерно половина коробок не содержит ни одного из присланных кодов: пересорт у поставщика. Случай практически рядовой — аналогичных ситуаций существует великое множество. Поэтому, наверное, и родилось одно из правил создателей информационных систем: нельзя верить входящим данным, все, что можно, нужно тщательно проверять. И это совсем не про пресловутую «защиту от дурака»...

История, и не только

Следующее, что следует сказать о цифровом шуме, — логи, или исторические записи. Во-первых, они бывают шумными «сами по себе». Как правило, это происходит по причине либо физической, либо логической. Причем логически исторические записи шумят несколькими способами. Например, при избыточности. Как вариант — можно в какой-либо linux утилите включить жесткое логирование. Вывод будет потрясающий — буквально каждое действие, расписанное по шагам. Безусловно, такого рода логирование иногда помогает, но чаще большой объем логов является разновидностью цифрового шума. Просто из-за объема. И потому, что обработка большого объема информации требует значительного времени и значительных ресурсов. Понятно, что есть специальные, заточенные именно на большие объемы данных средства анализа и поиска, но... чудес не бывает. В том смысле, что в любом случае при использовании любых средств будет или долгий поиск, или долгая индексация. Третьего, увы, пока не дано.

Также исторические записи могут шуметь за счет рассинхронизации. Это на самом деле целый класс ситуаций, при которых с объектом описания связываются данные другого объекта; объект описания не имеет все связанные данные; есть данные, не связанные ни с одним объектом описания, и т. д. Борьба с рассинхронизацей, опять-таки, специализированные программные полуавтоматические средства. Полуавтоматические — поскольку в автоматическом режиме полностью победить рассинхронизацию невозможно. Специализированные — поскольку стандартных средств, которые бы помогали восстановить логические отношения в данных, просто нет (ну или как минимум мне они неизвестны). Потому что создание таких средств в любом случае «завязано» на природу, структуру и формат хранения данных — и описание всех возможных прецедентов рассинхронизации в формализованном виде (да еще некими «стандартными средствами ПО») — задача, мягко говоря, не из тривиальных. Вернее, совсем нетривиальная задача.

Следующая категория цифрового шума — шум, создаваемый пользователями. Если взять среднестатистического пользователя, то количество ненужных документов у него на компьютере (даже на офисном) весьма значительно: версии, ветки полезных документов, копии каких-то присланных документов и т. д. Все это копится годами. Особенно «весело» становится, если для пользователя настроено сетевое теневое копирование — место на корпоративном хранилище данных начинает утекать с фантастической скоростью. Это, конечно, решаемо, но обычные, «простые смертные пользователи» как черт от ладана шарахаются от систем поддержки версионности, и даже от простой каталогизации собственных данных пребывают не в восторге.

Что делать

В общем, возникает логичный вопрос: если все настолько плохо, как бороться? Начнем с самого простого: с цифрового шума пользователей. Тут методы борьбы вполне понятны и отработаны: введение корпоративных хранилищ информации с регламентированным помещением туда необходимых файлов, ограничения на объем домашней папки, не позволяющие «разводить помойку», ограничения на объем почтового ящика, внедрение корпоративных систем управления версиями, в какой-то мере — использование терминального доступа. А также контроль за пользователями, точнее, за содержимым их рабочих компьютеров. Правда, тут надо, что называется, без фанатизма. То есть всячески избегать ситуации, при которой сотрудник, в силу корпоративных ограничений, будет испытывать неудобства. Но, с другой стороны, почтовый ящик пользователя, прирастающий на 70 Гбайт в год, тоже повод подумать над тем, что именно там хранится и не пора ли его почистить. Тем более что, как правило, письма, принятые и отправленные год назад, уже никому не нужны — они представляют собой цифровой шум в чистом виде. Собственно, в этом смысле внедрение регламентов работы с корпоративными средствами обработки и хранения информации (включая персональные компьютеры пользователей) — хорошая идея.

Для всех остальных видов шума все не так прозрачно. Отдельная большая проблема — лишние данные, которые как бы не связаны ни с чем (из того, с чем они должны быть связаны), то есть возникает ситуация нарушения внутренней целостности базы данных. Как правило, их просто удаляют, принимая риск того, что однажды запрошенная выборка окажется неполной или искаженной. И здесь, как ни странно, помогает дублирование одних и тех же данных в различных системах: например, есть условно «старая» и «новая» CRM. Если предположить, что в результате некоего происшествия (программная ошибка, перезагрузка и т. д.) в «старой» системе потеряны некоторые данные, то наличие какого-то количества данных в «новой» позволит хотя бы частично решить коллизию.

Отдельно стоит вспомнить про бекапы и резервирование. Это, с одной стороны, дело хорошее, с другой — бекапы сами могут стать чудесным источником цифрового шума. Кроме того, работа с бекапами особенно больших данных — это вечный поиск компромисса между производительностью, объемами и простотой работы. Те же инкриментные бекапы требуют достаточно «хитрых» алгоритмов реализации, вычислительных ресурсов. Бекап «в лоб», то есть «всего, что можно», — требует хорошей локальной сети и достаточных объемов хранилища... В общем, как не кинь — везде клин.

Выход из подобных ситуаций находится, кстати, совсем не в области технологий, а скорее в области бизнес-анализа. Весь фокус в том, чтобы определить, какие данные и как нужно дублировать, какая вероятность их пропажи является допустимой — в общем, решить классическую задачку информационной безопасности (а она, как мы помним, занимается не только киберпреступлениями, но и, в частности, такими вот «обычными бизнес-задачами»). Впрочем, такую задачу способны устранить не только представители ИБ — поле решения может лежать в сфере компетенций бизнес-аналитиков, руководителей, владельцев бизнеса...

И говоря о резервировании, никак нельзя не упомянуть о журналировании, то есть о системе, которая позволит «откатить назад» сделанные изменения. Справедливости ради, надо сказать, что на больших объемах эта система тоже прилично съедает и места, и ресурсов. Но как минимум позволяет работать с данными на уроне не просто файлов, а объектов, спроецированных в БД (речь идет о встроенном журналировании информационных систем — журналирование на уровне файловой системы помогает, но мало). Другое дело, что объекты могут быть сложными, их логика — нетривиальной, объем данных журнала превышать объем исходных данных в несколько раз, при том что никто не обещает, что сами журналы в один прекрасный момент не «побьются» физически или логически...

В общем, как всегда — требуется найти компромисс. Никто его не видел?

Журнал IT Manager

Опубликовано 30.10.2013

Предыдущая
ИТ – не волшебная палочка, а рабочий инструмент

Следующая
От «заплаток» к концепции

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30

Шумные данные

Как хакеры взламывают всех подряд, сколько нужно стучаться в закрытую дверь, и как вести сезонный бизнес

Плохой день для CAD-флибустьеров

Как IT-компаниям защититься от хищения баз данных

Рынок AR/VR-гарнитур в Японии прибавил в 2023 году 67,4%

Аудит ИТ-продукта: как правильно его организовать и что это даст?

АРПП подвела итоги пятнадцатилетней работы

«Безопасный трамвай» совершил наезд на пешеходов (обновлено)

Генеративный ИИ от МТС занял 1 первое место в рейтинге больших языковых моделей в лидерборде MERA

Запрет параллельного импорта смартфонов, фейковые приложения банков в App Store, в МФЦ без паспорта

Звезды в шоке. Рекламу будут показывать и в ночном небе

Китайский бизнес: ждут ли там россиян?

У Фонда «Сколково» новый глава

Выбираем смартфон до 6000 рублей: realme Note 50, Redmi A2+ или Tecno Spark Go 2024?

Приключения SWM в России: 7-местный кроссовер за 2.5 млн и настоящий G01F

Что такое капча, зачем нужна и как ею пользоваться?

Облака Microsoft уходят из России, правительство разрешает проверки ИТ-компаний, отечественный GitHub задерживается

CI/CD в два клика и без простоев

Infinix Note 40: ем за двоих, свечу за четверых