ДСПИ «Cros»
Текущая версия 7.1
Система предназначена для накопления и последующей обработки документов. Сжатие документов в 3–5 раз уменьшит объём, занимаемый данными на диске, а продвинутая система поиска поможет легко и быстро найти нужный документ по ключевым словам или параметрам загруженного файла.
-
Описание
-
Преимущества
-
Возможности
-
Характеристики
-
Требования
Основное назначение документальной системы поиска информации (ДСПИ) «Cros» —
создание и поддержание структурированных архивов — банков документов,
полнотекстовый поиск в них документов по запросам и формирование отчетов из найденных фрагментов.
При работе с ДСПИ «Cros» ключевым элементом является
банк документов. В этом банке в сжатом виде хранятся исходные документы,
их свойства — атрибуты, а также служебная информация. В процессе работы
возможно добавление в банк новых документов — файлов различных текстовых форматов,
удаление и экспорт в исходные файлы.
К документам относятся любые файлы текстовых форматов.
В общем случае в банке документов могут храниться файлы любых форматов, в том числе
графическая информация. Однако для возможности поиска нужных документов по их содержимому
формат данных должен быть распознан программой.
ДСПИ «Cros» обеспечивает автоматическое распознавание следующих форматов:
- «Текст» в кодировках DOS (cp 866), Windows (cp 1251), KOI8-R, Unicode (UTF-32 BE/LE не поддерживаются);
- DOC (MS Word 6.0/95, Word 9);
- XLS (MS Excel 5.0/95, 97–2003);
- DOCX (MS Word 2007–2010);
- XLSX (MS Excel 2007–2010);
- PPTX (MS PowerPoint 2007–2010);
- HTML;
- RTF;
- PDF (Спецификации 1.7 или более ранней);
- ODF (OpenDocument Format) — текстовые документы и электронные таблицы.
Атрибуты документов, хранимых в банке, предназначены, в первую очередь, для поиска необходимой
информации. Важнейшим атрибутом является содержимое документа, т. е. его текст. Наряду со стандартными
атрибутами, обязательно присутствующими для каждого документа, пользователем могут создаваться
и дополнительные.
Для оптимизации контроля, автоматизации добавления документов в банк документов и ускорения поиска
поддерживается многоуровневая структура банка документов в виде особых разделов —
областей поиска.
Области поиска могут содержать документы либо другие (вложенные) области поиска. В целом структура
областей поиска схожа с иерархической структурой каталогов (папок) современных операционных систем.
Система «Cros» оптимизирована специально для обработки больших объемов информации. Это означает,
что скорость индексации и поиска не зависит от размера оперативной памяти. При наличии 64–128 МБ RAM,
система будет работать почти так же быстро, как и при наличии 512 МБ.
Поиск документов осуществляется на основании запросов. В запросах, помимо требований к текстовому содержимому
документа (наличие заданных слов или фраз), могут также указываться требования к другим атрибутам
(например, имени файла, дате создания файла и т. п.). Запрос может выполняться не только по одному,
но и по нескольким банкам документов одновременно.
По результатам выполнения запроса готовится подборка необходимых документов. Пользователь
последовательно может конкретизировать условия поиска, получая всё более точные результаты из
предыдущих выборок.
В отобранных документах с помощью цветовых маркеров наглядно отображаются те фрагменты,
которые удовлетворяют условиям поиска. Исходный документ можно просматривать во внешних приложениях.
Любые документы выборки и их фрагменты можно «перетащить» в окно встроенного текстового редактора
для формирования на их основе отчета. Созданный отчет можно корректировать, сохранять в файле и выводить
на печать.
Многооконный интерфейс программы обеспечивает одновременную работу с несколькими запросами и выборками.
В системе предусмотрена возможность настройки инструментальных панелей всех окон, а также задание
клавиш быстрого вызова отдельных функций.
Размещение и хранение документов в банке
- Хранение оригиналов документов внутри системы со сжатием (уменьшением размера).
- Динамическое шифрование данных.
- Индексация, поиск и отображение файлов формата PDF (созданные в AdobeAcrobat версиях 4.00 и ниже), без установки Acrobat Reader.
- Добавление документов, хранящихся в архиве, без предварительной разархивации (встроенная поддержка таких архивов, как Zip, Arj, RAR, Imp и др.).
- Автоматическое определение типа документа и используемой кодировки.
- Автоматическое выделение и заполнение атрибутов документов, необходимых для поиска.
- Создание и настройка пользовательских атрибутов.
- Автоматизированное разбиение больших документов на части (с использованием регулярных выражений).
- Быстрая индексация большого количества документов.
- Создание индексных массивов, составляющих не более 30% от размера документов в банке.
Поиск документов
- Поиск по различным критериям.
- Задание условий поиска на языке, близком к естественному.
- Поиск с учётом морфологии слов — автоматическая проверка всех словоформ слова (всех возможных окончаний).
- Поиск по нескольким банкам документов при однократном задании запроса.
- Высокая скорость отбора документов, вне зависимости от их количества и объёма.
- Поиск с учётом одинаковых по написанию русских и латинских букв (без модификации документов).
- Многопользовательский режим работы с информацией.
- Удалённая работа с банком документов через веб-интерфейс.
Обработка результатов поиска
- Развитые средства навигации, сортировки и просмотра найденных документов.
- Возможность экспорта документов, хранящихся в банке.
- Подготовка отчётов из отдельных частей отобранных документов непосредственно в самой системе (с возможностью печати или сохранения отчёта во внешнем файле).
- Коррекция документов, хранящихся в банке, с автоматической переиндексацией.
- Отображение содержимого графических документов (*.bmp, *.jpg, *.gif, *.png и др.).
- Коррекция атрибутов документов в пакетном режиме (массовая коррекция).
Технические характеристики
Название | Описание |
Количество одновременно работающих пользователей | до 200* |
Количество независимых банков | не ограничено |
Количество областей поиска | не ограничено |
Количество пользовательских атрибутов | не ограничено |
Количество документов в банке | до 4 миллиардов |
Количество условий в запросе | не ограничено |
Размер одной записи | до 2 ГБ, переменный |
Размер значения одного поля | до ГБ, переменный |
Размер индексов в банке | 10–30% от размера данных |
Максимальный размер банка документов | 16 ТБ |
* При необходимости число пользователей может быть увеличено
Виды сравнений
Атрибут | Вид сравнения |
Текст документа |
|
|
|
|
|
Аппаратные требования
Программа Cros может работать на компьютере, отвечающем следующим требованиям:
- Операционная система: Microsoft Windows 8 (8.1), 10, Server 2012/2016/2019
- Свободное место на жестком диске: не менее 20Мб
- Процессор: не ниже Intel Pentium-4 1,5 ГГц (или совместимый аналог)
- Оперативная память: не менее 2 Гбайт для 32-х разрядных ОС, 4 Гбайт для 64-х разрядных ОС.
- Сетевая карта (для работы в сети):с пропускной способностью, не менее 100 Мбит/с