Cros

ДСПИ «Cros»

Текущая версия 6.4 (от 21.05.2014)
Система предназначена для накопления и последующей обработки документов. Сжатие документов в 3–5 раз уменьшит объём, занимаемый данными на диске, а продвинутая система поиска поможет легко и быстро найти нужный документ по ключевым словам или параметрам загруженного файла.
  • Описание

  • Преимущества

  • Возможности

  • Характеристики

  • Требования

Основное назначение документальной системы поиска информации (ДСПИ) «Cros» — создание и поддержание структурированных архивов — банков документов, полнотекстовый поиск в них документов по запросам и формирование отчетов из найденных фрагментов.
При работе с ДСПИ «Cros» ключевым элементом является банк документов. В этом банке в сжатом виде хранятся исходные документы, их свойства — атрибуты, а также служебная информация. В процессе работы возможно добавление в банк новых документов — файлов различных текстовых форматов, удаление и экспорт в исходные файлы.
К документам относятся любые файлы текстовых форматов. В общем случае в банке документов могут храниться файлы любых форматов, в том числе графическая информация. Однако для возможности поиска нужных документов по их содержимому формат данных должен быть распознан программой.
ДСПИ «Cros» обеспечивает автоматическое распознавание следующих форматов:
  • «Текст» в кодировках DOS (cp 866), Windows (cp 1251), KOI8-R, Unicode (UTF-32 BE/LE не поддерживаются);
  • DOC (MS Word 6.0/95, Word 9);
  • XLS (MS Excel 5.0/95, 97–2003);
  • DOCX (MS Word 2007–2010);
  • XLSX (MS Excel 2007–2010);
  • PPTX (MS PowerPoint 2007–2010);
  • HTML;
  • RTF;
  • PDF (Спецификации 1.7 или более ранней);
  • ODF (OpenDocument Format) — текстовые документы и электронные таблицы.
Атрибуты документов, хранимых в банке, предназначены, в первую очередь, для поиска необходимой информации. Важнейшим атрибутом является содержимое документа, т. е. его текст. Наряду со стандартными атрибутами, обязательно присутствующими для каждого документа, пользователем могут создаваться и дополнительные.
Для оптимизации контроля, автоматизации добавления документов в банк документов и ускорения поиска поддерживается многоуровневая структура банка документов в виде особых разделов — областей поиска. Области поиска могут содержать документы либо другие (вложенные) области поиска. В целом структура областей поиска схожа с иерархической структурой каталогов (папок) современных операционных систем.
Система «Cros» оптимизирована специально для обработки больших объемов информации. Это означает, что скорость индексации и поиска не зависит от размера оперативной памяти. При наличии 64–128 МБ RAM, система будет работать почти так же быстро, как и при наличии 512 МБ.
Поиск документов осуществляется на основании запросов. В запросах, помимо требований к текстовому содержимому документа (наличие заданных слов или фраз), могут также указываться требования к другим атрибутам (например, имени файла, дате создания файла и т. п.). Запрос может выполняться не только по одному, но и по нескольким банкам документов одновременно.
По результатам выполнения запроса готовится подборка необходимых документов. Пользователь последовательно может конкретизировать условия поиска, получая всё более точные результаты из предыдущих выборок.
В отобранных документах с помощью цветовых маркеров наглядно отображаются те фрагменты, которые удовлетворяют условиям поиска. Исходный документ можно просматривать во внешних приложениях.
Любые документы выборки и их фрагменты можно «перетащить» в окно встроенного текстового редактора для формирования на их основе отчета. Созданный отчет можно корректировать, сохранять в файле и выводить на печать.
Многооконный интерфейс программы обеспечивает одновременную работу с несколькими запросами и выборками.
В системе предусмотрена возможность настройки инструментальных панелей всех окон, а также задание клавиш быстрого вызова отдельных функций.
Размещение и хранение документов в банке
  • Хранение оригиналов документов внутри системы со сжатием (уменьшением размера).
  • Динамическое шифрование данных.
  • Индексация, поиск и отображение файлов формата PDF (созданные в AdobeAcrobat версиях 4.00 и ниже), без установки Acrobat Reader.
  • Добавление документов, хранящихся в архиве, без предварительной разархивации (встроенная поддержка таких архивов, как Zip, Arj, RAR, Imp и др.).
  • Автоматическое определение типа документа и используемой кодировки.
  • Автоматическое выделение и заполнение атрибутов документов, необходимых для поиска.
  • Создание и настройка пользовательских атрибутов.
  • Автоматизированное разбиение больших документов на части (с использованием регулярных выражений).
  • Быстрая индексация большого количества документов.
  • Создание индексных массивов, составляющих не более 30% от размера документов в банке.
Поиск документов
  • Поиск по различным критериям.
  • Задание условий поиска на языке, близком к естественному.
  • Поиск с учётом морфологии слов — автоматическая проверка всех словоформ слова (всех возможных окончаний).
  • Поиск по нескольким банкам документов при однократном задании запроса.
  • Высокая скорость отбора документов, вне зависимости от их количества и объёма.
  • Поиск с учётом одинаковых по написанию русских и латинских букв (без модификации документов).
  • Многопользовательский режим работы с информацией.
  • Удалённая работа с банком документов через веб-интерфейс.
Обработка результатов поиска
  • Развитые средства навигации, сортировки и просмотра найденных документов.
  • Возможность экспорта документов, хранящихся в банке.
  • Подготовка отчётов из отдельных частей отобранных документов непосредственно в самой системе (с возможностью печати или сохранения отчёта во внешнем файле).
  • Коррекция документов, хранящихся в банке, с автоматической переиндексацией.
  • Отображение содержимого графических документов (*.bmp, *.jpg, *.gif, *.png и др.).
  • Коррекция атрибутов документов в пакетном режиме (массовая коррекция).
Технические характеристики
Название Описание
Количество одновременно работающих пользователей до 200*
Количество независимых банков не ограничено
Количество областей поиска не ограничено
Количество пользовательских атрибутов не ограничено
Количество документов в банке до 4 миллиардов
Количество условий в запросе не ограничено
Размер одной записи до 2 ГБ, переменный
Размер значения одного поля до  ГБ, переменный
Размер индексов в банке 10–30% от размера данных
Максимальный размер банка документов 16 ТБ

* При необходимости число пользователей может быть увеличено

Виды сравнений
Атрибут Вид сравнения
Текст документа
  • равно;
  • в интервале слов;
  • не равно;
  • пусто;
  • похожесть (поиск с учётом опечаток).
  • Дата создания файла
  • Размер файла
  • Дата добавления документа в банк документов
  • Дата информации
  • равно;
  • не равно;
  • пусто;
  • не пусто;
  • больше или равно;
  • меньше или равно;
  • внутри интервала;
  • вне интервала.
  • Время создания файла
  • Имя файла
  • Время добавления документа в банк документов
  • Источник информации
  • равно;
  • не равно;
  • пусто;
  • не пусто;
  • больше или равно;
  • меньше или равно;
  • внутри интервала;
  • вне интервала;
  • похожесть (поиск с учётом опечаток).
Аппаратные требования
Операционные системы Оперативная память
  • Microsoft Windows ХР (SP2 и выше)
  • 256 МБ
  • Microsoft Windows Vista
  • Microsoft Windows 7
  • Microsoft Windows 8 (8,1)
  • 1 ГБ
  • Windows Server 2003
  • Windows Server 2008
  • Windows Server 2012
  • 4 ГБ
Общие требования
Процессор Место на диске
1,5 ГГц и выше 10 МБ
Для работы в сети
Сетевая карта с пропускной способностью не менее: 100 Мбит/с.