変換と文書フォーマット

変換と文書フォーマット
Conversion & Document Formats
バックファイル・コンバージョン 及び
デジタル・アーカイブズに保存された情報のフォーマットに関する諸問題
Backfile conversion and format issues for
information stored in digital archives
記録・文書・エンタープライズ・コンテンツ・マネジメントに関する
公共セクターのための AIIM 業界白書
AIIM Industry White Paper on Records,
Document and Enterprise Content Management
for the Public Sector
c
c
c
c
AIIM International Europe 2002
DLM-Forum 2002
Hewlett-Packard 2002
PROJECT CONSULT 2002
無断転載を禁じます。複写、録画、録音、情報保管・取得システムなどを含め、電子、機械、あるいは
画像などのいかなる形態や手段によっても、発行者の書面による許可なく、著作権で保護されたこの
文書を転載または使用することは禁止されています。
商標に関する記載
商標またはサービスマークとして知られるこの文書中のすべての商標は、適切に大文字で表記されて
いない場合があります。発行者は、この情報の正確さを保証するものではありません。この文書中にお
ける用語の使用は、いかなる商標やサービスマークの有効性にも影響を与えません。
おことわり
この文書の整合性と正確性には万全を期していますが、それを保証するものではありません。著作者
および発行者は、この文書中の情報によって生じる損失や損害について、いかなる個人または団体に
対しても責任を負いません。
2002 年初版
ISBN 3-936534-00-4(業界白書シリーズ)
ISBN 3-936534-02-0(業界白書 2)
価格(VAT 抜き):10 ユーロ
Die Deutsche Bibliothek - CIP-Einheitsaufnahme
Printed in United Kingdom by Stephens & George Print Group
AIIM International Europe
Chappell House
The Green, Datchet
Berkshire SL3 9EH-UK
Tel: +44(0)1753 592 769
Fax:: +44(0)1753 592 770
europeinfo@aiim.org
DLM-Forum
Electronic Records
Scientific Committee Secretariat
European Commission SG.B.3
Office JECL 3/36, Rue de la Loi 200, B-1049 Brussels ‐ Belgium
Tel. +32(0)2 299 59 00/+32(0)2 295 67 21/+32(0)2 295 50 57
Fax +32(0)2 296 1095
A/e: dlm-forum@cec.eu.int
Author
Hewlett-Packard GmbH
Nancy Romany
Schikhardtstr. 32
71034 Boeblingen ‐ Germany
Tel. +49(0)7031 14 6837
nancy_romany@hp.com
Executive editors and coordinators
Dr. Ulrich Kampffmeyer
Silvia Kunz-Kirschner
PCI PROJECT CONSULT International Ltd.
Knyvett House, The Causeway
Stainers, Middlesex TW183BA ‐ UK
Tel: +44(0)1784 895 032
info@project-consult.com
Published by PROJECT CONSULT, Hamburg, 2002
Industry White Papers on Records, Document
and Enterprise Content Management
(1) Capture, Indexing & Auto-Categorization
(2) Conversion & Document Formats
(3) Content Management
(4) Access & Protection
(5) Availability & Preservation
(6) Education, Training & Operation
Series
ISBN 3-936534-00-4
HP
FileNET
IBM
Kodak
TRW/UCL/comunicando
ISBN 3-936534-01-2
ISBN 3-936534-02-0
ISBN 3-936534-03-9
ISBN 3-936534-04-7
ISBN 3-936534-05-5
ISBN 3-936534-07-1
序 文
情報社会は欧州市民に様々な形で影響を与えています。最も顕著なのは新しいデジタル技術
を使った情報サービスとアプリケーションの到来です。欧州の IT 企業の競争力と知識集約型の
新しい仕事の機会を創出することが、真の欧州デジタル経済実現の鍵であります。同時に、情
報社会は、アクセスの平等性、社会的包括性、文化的多様性を支援する欧州の社会的、文化的
遺産の基本的価値を強化するものでなければなりません。これらの経済的要求と社会的要請の
バランスを確保する重要な要素の一つが、情報・通信産業と公共・行政機関の協力です。過去
5 年間、欧州委員会は EU 加盟国と協力して、技術プロバイダと公共・行政機関が協力する多
角的専門分野の研究会プラットフォームの創設に携わってきました。このフォーラムは公共機
関の透明度と市民への情報提供度を高め、情報社会の共同の記憶確保を目標としています。こ
れらの目標は 2000 年 6 月にフェイラでの欧州サミットで採択された、電子欧州行動計画
(eEurope Action Plan)の中核になっています。私は、我々の行政機関が直面している多くの
問題への明確なソリューションを探し、提起するプラットフォームとして、この時期に DLM
フォーラムが展開した方向を歓迎しております。
1996 年の DLM フォーラムの初期活動は、電子情報を利用する最良の実践(best practices)
のガイドラインと、機械が読み取るデータと電子ドキュメンテーションを扱うことでした。
1999 年のブリュッセルでの DLM フォーラムで、情報・通信・技術(ICT)産業に対してある課
題が提起されました。それは、EU 加盟国の行政機関を支援するために、電子文書とコンテン
ツマネジメントの分野で、証明された実践的なソリューションを提供することでした。
公共アクセス提供の重要性と電子情報の長期保存は、政府を効率化するビジネス・プロセス
の改善と同様に、
「情報社会の記憶」を保存するための究極的要件と見られています。開発すべ
きソリューションは一方で急速な技術的進化への適応性を持ちながら、他方では、文書管理・
アーカイバルシステムに保存された知識の知的検索と短・長期のアクセス性を保証するもので
なければなりません。更に、最良の実践例を見つけると共に、使われている技術と標準を理解
するトレーニングと教育プログラムの作成が必要です。私はこれらの課題に対する ICT 産業の
積極的な対応及び、スペインの EU 議長国の時期に合わせ、例えば、2002 年 5 月のバルセロナ
大会で提案されたイベントで、こんごの DLM フォーラムにおける積極的な関与を歓迎いたし
ます。
以下のページの情報は、業界の主要なサプライヤーが作成した、より効率的な電子文書、記
録、コンテンツマネジメントを実現する上で考慮しなければならない重要な分野を包含した、
ICT 産業の 6 白書の中の一つであります。私は、一人の専門家として又一欧州市民として、読
者の方々がこの白書から今日的な意義のある且つ貴重な情報を得られると確信しております。
Erkki Liikanen
Member of the Commision for Enterprise and Information Society
スポンサー挨拶
ヒューレットパッカード社は、この内容に富んだ白書のスポンサーであることを嬉しく思いま
す。文書情報資源の管理及びアクセシビリティは、21 世紀における欧州のビジネスが直面する
大きな課題です。
企業及び社会は全体として、電子文書、記録、コンテンツ管理に対する効果的で実行可能性の
あるシステムを通して測り知れないメリットを得るために立ち向かいます。時間、経費を節約
し、効率を高めるでしょう。
本白書は、欧州の企業及び機関に対し、成功する文書管理へ独自の、適切な、ベストプラクティ
スへの道を築く情報を提供します。
文書とコンテンツ管理を取り巻く問題に対処するにあたり、ここで取り上げられたソリュー
ションは、普遍的なアーカイブ管理システムへ向かうときに重要な役割を果たすものと期待さ
れます。
Rolf Gerstner
Manager
Business and Marketing Strategy
Commercial Imaging and Printing Solutions EMEA,
Hewlett-Packard
目次
序
文
1.
はじめに・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
1
2.
既存のアーカイブを変換する際の障害・・・・・・・・・・・・・・・・・・・・・・・・
2
2.1
文書の山を克服 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
2
2.2
認識の打開・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
2
2.3
技術への対応・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
3
2.4
情報の喪失・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
4
2.5
変換コスト・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
4
2.6
合法性 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
5
2.7
記録管理 と文書管理の対比・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
5
3.
デジタル時代のコンテンツ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
7
3.1
紙の原本・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
7
3.2
ラスター・イメージとベクター・イメージング・・・・・・・・・・・・・・・・
7
3.3
スキャニングの「基準」・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
8
3.4
圧縮・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
9
3.5
画像の「ノイズ」除去・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
9
3.6
ラスター・イメージの特性
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
9
3.7
レンディショニング・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
10
3.8
アダプティブ・スレッショールディング・・・・・・・・・・・・・・・・・・・・・・
11
3.9
注釈・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
11
3.10
認識技術・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
12
3.10.1
ICR(インテリジェント文字認識)・・・・・・・・・・・・・・・・・・・・・・・・・・
12
3.10.2
OCR(光学式文字認識)・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
12
3.10.3
バーコード(BCR)・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
13
3.10.4
OMR(光学式マーク読取)・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
13
3.10.5
OCR から ICR へ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
13
3.10.6
出力フォーマット・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
14
3.11
カラーとグレースケール ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
14
3.12
マイクロフィルム、マイクロフィッシュ・・・・・・・・・・・・・・・・・・・・・・
15
3.13
電子オブジェクト
15
3.14
フォーム(帳票)・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 16
4.
情報の捕捉技術と方法
4.1
内作か外注か・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
17
4.2
従来のアーカイブ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
18
4.3
COLD/ERM エンタープライズ・レポート・マネジメント・・・・・
20
4.4
書式の捕捉(Forms Capture)・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・21
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 17
4.5
電子文書
4.6
文書変換計画
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
24
4.6.1
ステップ 1:場所の選択 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
24
4.6.2
ステップ 2:戦術の方針決定・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 24
4.6.3
ステップ 3:電子化対象文書の決定・・・・・・・・・・・・・・・・・・・・・・・・
4.6.4
ステップ 4:捕捉用ソフトウェアの選択・・・・・・・・・・・・・・・・・・・・・・・・・ 25
4.6.5
ステップ 5:スキャナー装置の選択・・・・・・・・・・・・・・・・・・・・・・・・・・・
25
4.6.6
ステップ 6:前処理手順の定義
・・・・・・・・・・・・・・・・・・・・・・・・・・・
26
4.6.7
ステップ 7:システムの規模
・・・・・・・・・・・・・・・・・・・・・・・・・・・
26
4.6.8
スタッフの選出と教育
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
26
5.
標準フォーマット
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
28
5.1
タグ付きイメージ・ファイル・フォーマット(TIFF)・・・・・・・・・・・・・・・・・・・
29
5.2
Joint Photographic Experts Group(JPEG)・・・・・・・・・・・・・・・・・・・・・・・・
30
5.3
グラフィックス・インターチェンジ・フォーマット(GIF)・・・・・・・・・・・・・・・
31
5.4
Moving Pictures Expert Group(MPEG)・・・・・・・・・・・・・・・・・・・・・・・・・
31
5.5
Audio Video Interleave(AVI)・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
32
5.6
アドビ・アクロバット・ポータブル・ドキュメント・フォーマット(PDF)・・・・
32
5.7
リッチ・テキスト・フォーマット(RTF)・・・・・・・・・・・・・・・・・・・・・・・・・・・・
32
5.8
ハイパーテキストマークアップ言語(HTML)・・・・・・・・・・・・・・・
32
5.9
Extensible Markup Language(XML)・・・・・・・・・・・・・・・・・・・・・・・・・
33
6.
ベスト・プラクティス・アプリケーション・・・・・・・・・・・・・・・・・・・
34
6.1
林野庁、ベイデン・ブッテンベルグの
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
森林地情報システム(FOGIS)計画
23
25
・・・・・・・・・・・・
34
6.1.1
目的
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
34
6.1.2
技術ソリューション・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
34
6.1.3
利点と投資効果(ROI)・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
36
6.1.4
適応性 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
37
6.2
サンクチュアリ住宅協会の文書イメージング・システム計画・・・・
37
6.2.1
問題点と要求事項
37
6.2.2
技術的ソリューション
6.2.3
更なる展開
6.3
COLD/ERM ソリューション
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
38
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
39
スタフォードシャー郡議会の計画・・・・・・・・・・・・・・・・・・・・
39
6.3.1
技術的ソリューション
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
39
6.4
レヴィ・ジー・プロジェクト紙文書から電子ファイルへの移行・・
42
6.4.1
技術的ソリューション
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
42
6.4.2
利点と投資効果(ROI)・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
42
7.
展望
7.1
フォーマット
7.2
変換戦略
7.3
アーカイブの価値
7.4
技術の発展
用語説明
44
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
44
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
44
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
45
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
45
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
47
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
50
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
51
略語リスト
参照
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
著作会社
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
52
1. はじめに
本白書は、異なるフォーマットや種類の文書を含む既存の物理的アーカイブ(保存)を、電子フォー
マットに変換することを考慮した際に生じる諸問題を扱っています。こうした問題は、大量の捕捉支援業
務を含め、通常業務の維持と変換業務を実行するためにプロセスにおける適切な戦略と方策の決定、
及び適切かつ確実な持続性のある文書フォーマットの採用など、多岐にわたります。
・ 第 2 章―既存のアーカイブを変換する際の障壁
変換を行うには、多数の障壁を乗り越える話し合いが伴います。本章で取り上げているのは、規
模の決定、合法性、コストの妥当性、ライフサイクルへの配慮、とりわけアーカイブそのものの業
務目的に対する明確な理解です。
・ 第 3 章―デジタル時代のコンテンツ
1枚の紙を使って多くのことを表現することができますが、デジタル文書ではそうは言えません。
「ひとつのサイズですべてをカバー」する戦略をとることは、文書の価値を過小評価することにな
ります。本章では、文書の本質を理解し、ソリューションを設計することで、組織の資産としての
文書の価値を最大限に活かす方法を探ります。
・ 第 4 章―情報の捕捉技術と方法
捕捉技術及び方法は、同じように多様化しています。組織によっては、電子化するために(また
は手作業でキーボードによる再入力のため)、電子的に作成した文書をプリントする方法をとる
こともありますが、さらに優れた別の方法も利用できます。そうした方法は技術だけでなく、人間
的インターフェイスも極めて重要です。
・ 第 5 章―標準フォーマット
本章は、異なる種類の文書を捕捉するために現存する様々なフォーマットを取り上げています。
不変性を保証するフォーマットなどはありませんが、広い支持を獲得しつつある新しい標準で、
その由来と持続性が合理的に裏付けられた、定評のあるフォーマットを中心に説明しています。
・ 第 6 章―ベストプラクティス・アプリケーション
本章では、現場業務支援のためのデジタル・アーカイブを構築するという課題に直面し克服し
たヨーロッパの公共組織を評価しています。
・ 第 7 章―展望
変換市場を形成する発展や技術に対するコメント及び異なるユーザーからの要件を考慮するた
めに必要とされる実証済みの変換戦略や要因を要約しています。
John Mancini
AIIM International
1
2.
2.1
既存のアーカイブを変換する際の障害
文書の山を克服
この 30 年、電子的手段によるデータ処理が進展したにもかかわらず、アクセスのための電子的手段に
よる文書変換には、ほとんど進歩がみられなかった。
事実、全業務文書の 9 割が、いまだ非デジタル形式のままだと予測されている。その多くは紙であり、
マイクロフィルムやマイクロフィッシュである。企業のコンピュータ・システムは、この紙の山の管理レポート
を作成する責務があった。ユビキタスの「パジャマ・ペーパー(紙の氾濫)」、手形、請求書、給与明細など、
原本の内容は電子的にほんの数ヶ月間保存し、その後は消去し、処理の記録即ち証拠として紙かマイ
クロフィルムに残しておくというのがその典型である。
パソコンを使ったシステムでも、問題を軽減できなかった。オフィス・システムの中で作成された電子的
オブジェクト(書簡、集計表など)は、個々のパソコンのハード・ドライブに保管されるか、またはフロッピー
ディスクやローカル CD ディスクにコピーされ、組織にとって価値をなくしてしまうことが多い。驚くことでな
いが、そうした文書はしばしばアーカイブ(保存)目的でプリントされる。おそらく、高い関心は e メール利
用の増大である。重要な決定の多くが、今では e メールに基づいている。しかし、多くの組織は、いまだ
e-メールのコンテンツの―紙の形でさえも―保存のための有効な戦略を練り上げていない。
他にも理由はあるであろう―例えば、署名の伴う文書は―その結果、紙の原本が電子的コピーよりも
優先されることになる。
2.2
認識の打開
文書の過重負担が、常に問題視されるとは限らない。組織の拡大に伴い、さらに広い敷地が、駐車場
が、人事機能の拡大が必要になる。ファイリングの問題が確実に広がっていることは、成功の兆しの一つ
といってよく、それは負担すべき必要な代価であろうか?
堅実で誠実だという評判を慎重に育てた組織は、アーカイブの必要性について、極度に単純な見通
しをすることで知られている―「スキャナーを購入した」または、「あのファイリング・キャビネットから書類
ファイルを取り出して、パソコンに入れたいだけさ」―しかし、その結果は予想がつくであろう。
ただ単に、アーカイブは「レーダーに衝突する」だけで終わることが多い。組織の存続と競争力に役立
つという確信がなければ、財務部長は問題の対処に金を出すだろうか? 浸透している従来の見解は、
「箱詰めにして、外部の保管業者に委託する」である。
変換により実現できる情報資産価値が、上級管理職に認識されることは非常に少ない。
2
2.3
技術への対応
ビニール製のフォルダーの記録やベータマックス・ビデオのライブラリーを構築した人の多く
に共通することは、著者は、陳腐化がアーキビストのために生み出している問題をあまりにも多
く知っている。
ここ数年、文書管理の記録媒体は、14 インチ、12 インチ、5.25 インチの WORM 光ディスク、
5.25 インチの書換可能型、CD-R、CD-RW、DVD、DAT、RAID、など乱立している。媒体の
違いだけにとどまらず、ベンダーは媒体の読取・書込方法に異なる基準をもうけることが多く、
メーカーの消滅は、媒体はおろかアーカイブの陳腐化を招いている。
また、寿命の問題も考慮する必要がある。ヒューレット・パッカードのようなメーカーが厳格
なテストと審査を行い、ディスクが 50 年以上もつと予想したとしても、15 年以上使える光学的
アーカイブはほとんどない。しかし、どんな種類の媒体でも短命に悩まされることがある。例え
ば、1911 年のイギリスの国勢調査報告は紙であったが、今触れればボロボロになってしまう。
また、MOD サイトのマイクロフィルムも、アーカイブ作成時の品質管理がずさんだったため、
10 年後にはもはや読むことができないだろう。長期の保存戦略には、文書のフォーマットと記
録媒体双方の寿命への対処及び詳細な調査が必要とされる。
デジタルの保存能力は急速に伸びているが、文書業界の需要を満たすにはさらに伸び続ける必
要がある。数年前、クレジットカードの多国籍企業が「カントリー・クラブ請求書作成」システ
ム用に文書スキャンを導入し、それまで手書きの署名入り書類をファックスで顧客に提示する方
法に依存していた。しかし、最大容量の光学ジュークボックス保管システムでさえ、3 ヶ月あま
りの請求書を保管できたにすぎなかった―顧客に請求書を送り、問い合わせに応えるのにやっと
の時間である。やむをえず、同社は長期保存用としてマイクロフィルムによるアーカイブを維持
することにしたが、問題は、光学保存に代わる何か―例えば、データ保存のため水晶の個々の分
子を活用した水晶保存のようなもの―が出てくるまで持ち越されると予想された。
技術の変化も影響を与えている。上記のクレジットカード会社は、そうした要求が、店舗販売
時点管理(POS)用「カード読取」機導入による陳腐化をひきおこした主な原因であることを悟っ
た・・・。
文書フォーマットも停滞していたわけではない。インターネットやパソコンのユビキタス利用
に対する要望におされ、容量が増大した。定評のある文書フォーマットの規格は多いが、ここで
は略語を示すにとどめ、本書の後半で詳しく述べることにする―TIFF、JPEG、GIF、PDF、
RTF、HTML、XML―その間も、JPEG2000、JMP、TIFF/FXX といった新しいフォーマット
の登場が続いている。IBM の高機能(AFP)技術のような全点アドレス可能(APA)印刷フォー
マットも発展を続け、電子請求プレゼンテーションなどの分野で優位にたつ鍵とみなされている。
3
2.4
情報の喪失
現存するアーカイブは、如何なる組織においても、知的固定資産のごく限られた部分として位
置づけられている。多くの組織は、単に必要な情報がどこかのファイリング・キャビネットに埋
もれているが、記録の登録または索引付けが不備だからという理由で、すでに所有している情報
を複製するという過ちを犯している。かつては、「知っていることが分かりさえすれば、4 倍も
能率があがる」と言われた。
あらゆる文書にとって最も貴重な属性は、その内容と作成された背景(メタデータ)である―
これらの属性は、活用中の紙文書やマイクロフィルム文書がひとたびアーカイブされると、大半
が失われてしまう。情報は、その存在と所在を知る者がいなければ、価値が無いからだ。文書を
分類・登録する記録管理という活動―従来、文書が通常のアクセスを離れた後の地味な作業と考
えられていた―が重要視されるようになり、こうした要件の取り組みがフロントオフィスの業務
としてみなされている。
EC が 委 託 制 作 し た 報 告 書 、『 電 子 記 録 マ ネ ジ メ ン ト の モ デ ル 要 件 ― MoReq ( Model
Requirements for the Management of Electronic Records)
』は、2001 年 5 月に発行された。
MoReq は電子記録管理に求められる機能を提示しており、現在、大手の電子文書マネジメント
業者の大半は、MoReq の仕様に沿った電子記録マネジメント・システム(ERMS)機能を提供
している。
また、文書が入手不能となる物理的要因も存在する。文書の大半は、時間の経過による劣化―
カビ、湿気、インクのかすれ、紙の破損など―を被る。あるいは、文書そのものが、貸し出され
たまま返ってこない、または別の場所にファイルされ、紛失することもある。マイクロフィルム
によるアーカイブも、マイクロフィルム・ビューアーの陳腐化や質の悪い撮影のリスクから免れ
るとはいえない。
2.5
変換コスト
いかなる業務にせよ、書類の取り扱いは大きな要因だ―総費用の 3 割から 4 割もが、単に書類
の取り扱いに費やされているとみなされている。変換作業は一様に労働集約的で費用がかかるが、
過密スケジュールが組まれることが多いという事実が事態をさらに悪化させている。
考慮するコストには、変換及びその管理にかかる総費用と、変換作業中の「通常業務」(デー
タ捕捉期間中ファイルが手元に無いために生ずる業務中断、現場での変換作業に必要なオペレー
タの臨時雇用など)にかかる費用の両面が含まれる。
綿密に変換戦略を立てることが不可欠だ。バックファイル変換戦略には、全面的な変換、オン・
4
デマンド(要求ベース)の変換、漸増的変換、または「特定期日以降の変換」などが含まれる。
書類の捕捉後の費用も考慮しなくてはならない。法的理由により、紙文書(証書や保険契約書
など)を、デジタル記録を確実にさかのぼって検証することができる相互参照システムとともに、
保有しなければならない場合がある。紙を破棄する場合でも、特別な管理と保護手段をとる場合
もある。
変換の前に、最新の注意を払って文書を選別すべきである―コピー文書、不要なメモ、無関係
または差し替え済みの文書などを取り除いておく。アーカイブの 5 割以上は変換よりもシュレッ
ダーにかけるのがふさわしいことに、組織が気づくことが知られていない。
2.6
合法性
法的側面に目を向けると、かつては法的な問題に対する関心が、電子アーカイブの幅広い採用
を制限していた。例えば、イギリスでは、電子記録の合法性に関する関連事項が多い。例えば、
紙も保存しなくてはならないのなら、電子保存の価値は何なのか?
イギリスの最初のデータ保
護法は、紙の記録は本法律の付託事項に該当しないとあるが、いったん DIP(文書イメージング
処理)システム上に捕捉されたら付託される扱いであった。
この状況は徐々に変わりつつある。最新のデータ保護法では、付託事項に紙文書を含め、DIP(文
書イメージング処理)の例外を取り除いた。PD0008 の発表―「電子文書マネジメント・システ
ム上に保存された情報の法的証拠能力」、及び他のヨーロッパ諸国の同様の協定は、明確なガイ
ドラインの定義の助けとなった。イギリスの政府近代化白書、情報公開法、EC 諸国間で施行さ
れた電子署名の法制定のようなイニシアティブが、いまや電子アーカイブへの動きを鼓舞する役
割を果たしている。まさしく、特に一般的な組織や公共団体が、一流のサービスは一流の支援シ
ステム無しでは成り立たないことに気付きつつある。
2.7
記録管理 と文書管理の対比
利用者が照会事項や職務に必要な文書を効率よく検索できるよう、役立つ電子記録アーカイブ
を構築しなければならない。記録及び文書管理はともにこれを支援する。アーカイブは、その内
容に依存する一方もしくは双方の専門領域による管理が必要になる。
電子文書管理システム(EDMS)は、保管またアクセス可能な電子文書の全般的な統制を行う
が、電子記録の管理・保全に要する体系的な構造は備えていない。
紙であれ電子媒体であれ、記録は事業活動の報告であり、改ざんされることなく維持・管理さ
れ、記載された内容や状態を保つことが必要となる。
5
電子記録管理システム(ERMS)は、組織のファイリング計画や記録のメタデータ、処分スケ
ジュールを標準化する管理機能をもち、記録へのアクセス・処理に関する包括的な監査や統制を
行う。ERMS は、電子及び紙の記録双方の管理機能を備えていることが多い。
電子文書管理システム(EDMS)
電子記録管理システム(ERMS)
複数のバージョンの修正及びまた存続が可 記録の改ざんを防止
能
所有者による文書を削除するおそれあり
厳密な管理環境下以外での記録の消去を防
止
“ファイルの終了”を管理する機能はない
ライフサイクルのある決められた時点で、
文書の削除、廃棄(シュレッダー細断)を
要求することができる
若干の保有管理機能を含む場合がある
厳格な保有管理機能を含めなくてはならな
い
利用者の管理にもとづく文書保存体系を含 管理者が維持する厳格な記録整理機能(分
む場合がある
類スキーム)を含めなくてはならない
現行の業務のための、日常の文書利用のサ 日常業務の支援もするであろうが、長期・
ポートを主目的とする
短期アーカイブのための重要な業務記録の
セキュアなリポジトリー(格納)を目的とす
る
図 1:電子文書管理システムと電子記録管理システムの対比
6
3.
3.1
デジタル時代のコンテンツ
紙の原本
紙には、A0 から A6、またはそれ以下であったり、シンプレックスやデュープレックス、ルー
ズリーフであったり、束ねられていたり、本の形になっていたり、色や重さも様々で、多くの形
態とサイズがある。最も重要なのはその内容である。A4 の紙1枚が、書簡、請求書、地図、遺
言状や遺書に、製図、漫画、ダ・ヴィンチのスケッチやアインシュタインの相対性理論になりう
る。単なる紙1枚でも、そうした種別ごとの電子的表現の作成に必要な方法は大きく異なる。
原本の品質も、コンピュータにとっては人間の目の場合よりさらに問題となる。人間の目が、
乱筆や汚れた殴り書き、模様の上の重ね書き、誤字脱字を判読できるのに対し、文書認識システ
ムは順応性に乏しい。タイプ原稿であれば、それなりの精度で解釈することが可能である。制約
のある手書文字(枠内の大文字や数字)の読み取り技術は、実行可能なレベルになった。一方、
制約の無い手書文字(枠外の大文字や数字)の場合、広く許容されるレベルに近づいている。し
かし、手書の小文字や筆記体(草書体)の認識と解釈―例えば、欄内の小計や総計の推論など―
は依然としてお粗末である。
3.2
ラスター・イメージとベクター・イメージング
ラスター・イメージとは、原本のビットマップ表示である。原本の各ピクセルが、一番単純な
1 対 1 の比率でデジタル表示される。最も正確な描写は正確な縮尺での復元であり、拡大や縮小
(パソコンの画面にあわせるなど)に必要なスケーリングアルゴリズムの使用が含まれているた
め、細部は多少妥協即ちロスが生ずる。
ベクター・イメージングは、原本の形を解釈して表示する。例えば、曲線や直線を如何なる縮
尺・解像度・角度でも正確に再現できる。ベクター・イメージングは、デジタル地図のようなア
プリケーションで使用される。大型の地図は、たいてい 2 万 5 千分の 1 の縮尺で再現される。
地図の上で最も精細な部分は、最大 0.1 ミリの幅が「地表の」2.5 メートルに相当する。
従って、そうした地図に依存する組織は、その影響を考慮すべきである。従来、ガス・電気・
水道は、パイプや電線の位置を正確に示すことはできなかった。そのため、補修グループは壊れ
た供給管を見つけるためだけに、3 メートルもの溝を道路に掘っていた。ベクター・ベースのデ
ジタル地図は、公益企業はパイプや電線の位置を正確に特定できるため、補修作業による停電や
断水を最小限にとどめることができる。
とはいえ、ベクター・コンバージョンは、高額で時間もかかることがある―1973 年に始まっ
た陸地測量計画では、23 万枚の地図をデジタル化することになっているが、完了したのは 1995
7
年であった!
大半の一般的な事務用アプリケーションには、もっと単純で早いイメージング技
術が適している。
図 2:陸地測量地図
(イメージは、陸地測量部及び北アイルランド陸地測量部の好意ある承認を得て再現)
3.3
スキャニングの「基準」
今や消費者の期待が、家庭用スキャナー市場を左右することが多い。目抜き通りの店で約 100
ユーロ(約 1 万 3000 円)する基本のスキャナーは、スキャンと同時に多数の異なる項目を分類
し、24 ビットのフルカラー、1,200dpi でデジタル処理することができる。
そのため、業務用スキャナーは 3 万ユーロ(約 400 万円)以上もするうえ、解像度の上限が
300dpi で白黒のスキャンしかできず、ページサイズの設定は手動で行わなくてはならないと
知って驚く見込みユーザーが多い。
しかし、それが業務用スキャナー市場の特性なのだ。通常、保存及びネットワーク帯域幅に必
要とされる膨大な規模の容量は、コストとして認められないというだけで、高解像度のカラース
キャンの要望はほとんど無い。多くの組織にとって、「まずまずの品質」の尺度は、依然として
100 から 200dpi の解像度の白黒ファックスか、300dpi の白黒レーザープリントである。
また、多くの場合、スキャニング・エンジンの処理能力と堅牢性(入力コストにそのままはね
かえってくる)は、個人用のイメージ品質よりも遥かに厳しい。集中処理用の大型スキャナー1
台を設置するよりも、各自の机に安価なスキャナーを置くほうが安いかもしれないが、そうした
戦略の実現性を決定するのは継続する人件費である。
8
3.4
圧縮
白黒の 2 色イメージで最もよく使用される圧縮技術は、ITU グループの規格(かつての CCITT グルー
プ 3 及びグループ 4)で、「ラン・レングス・エンコーディング」として知られる技術を利用したものである。
分かりやすくいえば、圧縮エンジンがピクセル行をスキャンする際、同色(白)のピクセル数を色が変わ
るまで(黒)数える。この工程が最終行まで繰り返される。
普段目にするような、95%が白、5%が黒のピクセルからなるタイプ原稿の場合、この技術は効果的で
あるが、写真や絵画の場合は、あまり有効とはいえない。
グループ 3 圧縮は、一度に一行ずつスキャンして圧縮する。グループ 4 の圧縮方法は、それまでの一
行ごとのスキャンに比べれば、はるかに効率よくアーカイブを行い、相違点のみをコード化する。このた
め、2 次元(2d)技術と称されている。
グループ 4 はデジタル・スキャニングで最もよく使われる圧縮であるが、グループ 3 はアナログ回線電
話の雑音により生じる障害への耐性が最も高い(各回線の端に、イメージを「再同期」できるようにする
チェックポイントがある)ため、ファックス送信の規格として容認されている。
3.5
画像の「ノイズ」除去
文書の内容が、特に質の悪い複写や「雑然とした背景」(銀行手形)のように効果的な圧縮に
対し耐性が高いことを証明する場合がある。これは「クリーン」なページをファックスし、粒子
の粗いフォトコピーで同じことを繰り返し、送信時間を比べることで簡単に検証できる。
これを緩和するため、様々な技術が適用できる。カラー・ドロップアウト(スキャン装置に対
し透明な背景色を選択)
、ゾーン・イメージング(あらかじめ設定された範囲だけをスキャン)、
フォーム・ドロップアウト(フォームの背景を電子的に除去)などがある。
住宅手当用紙の背景を、擬似諧調(黒い点でグレーの影のようにみせる)でデザインしていた
地方自治体が、とりわけ困難な変換作業を抱えこむことになった。グループ 4 の圧縮だとページ
あたり 30 キロバイトになると予想していたが、1ページ 2,500 キロバイトを超える圧縮画像を
配信することがわかり、即座にデザインを変更した。
3.6
ラスター・イメージの特性
ファックスの「端がギザギザ」といった性質は、原本を正方形のピクセルの連続でとらえるラ
スター・イメージの特性である。画素化(ピクセル化)は、あらゆるフォーマットに共通している。
9
ただし、文書のイメージ・ビューアーによっては、適切なアプリケーションでその影響を最小限
にとどめるものもあるため程度の差は異なる。
共通して使われている技術の一つが、グレースケールやアンチ・エイリアス処理である。300dpi
でスキャンされたイメージを想定して欲しい。パソコンの画面に表示されるイメージの解像度は、
最大でも 100dpi である。その結果、表示ソフトは 9 ピクセルを1ピクセルに縮めなくてはなら
ない。
そのための最も簡単な技術は間引きである。ブロック内の 4 ピクセル以上が黒であれば、これ
を黒とみなし、その逆は白とする。その結果、上記のギザギザが生じる。
これにひきかえ、アンチ・エイリアス処理はブロック内の黒いピクセル数を数え、これをグレー
の影としてとらえるため、はるかに見やすいものになる。
図 3:アンチ・エイリアス処理
3.7
レンディショニング
より高度なネットワーク・トラフィック管理用オプションとは、元のドキュメントを優れた品
質でサムネイル化ができることである。小型のサムネイルは検索や閲覧のアクセス用とし、原寸
大の画像は適切なサムネイルが識別された時に限り、呼び出すことになる。
10
同様の技術が、OCR や ICR の操作に使われる場合がある。例えば、文字認識エンジン用に入
力された高解像度のイメージは後日廃棄され、同時入力された低解像度の自動生成画像が、長期
のアーカイブとなる。
3.8
アダプティブ・スレッショールディング
しきい値の適用は、マルチカラーの紙文書を白黒でスキャンする場合でも、コントラストの変
更を補正するためにスキャナーのハードウェア・ソフトウェアいずれにも適用できる技術である。
メーカーの多くが最高品質の画像を作るため、画像のコントラスト、光沢、エッジ解像力、そ
の他の側面を最適化するオート機能を組み込んでいる。こうした技術がなければ、原本が難しい
条件の場合(淡い緑の上に濃いグリーンの文字など)、最良の結果を出すために手作業で何回も
調整しなければならず、変換コストは著しく高くなってしまう。
3.9
注釈
イメージ内の注釈アプリケーション―テキストの一部をハイライト、「付箋」添付、デジタル
日付印の押印など―は、法的許容性の面でも長期保存の可能性という面で、いくつかの挑戦課題
をもたらしている。
メーカーによっては、TIFF 文書に注釈を「焼き付ける」機能を提供している―つまり、注釈
をカプセル化したイメージを再生するのである。これはメーカーに中立の技術であるが、有効な
バージョン及び法令遵守目的のためには効果的なバージョンと監視統制に依存するので、ベン
ダーに依存することになる。
さらに、あるいはその代わりとして、個別の「層」に分けて注釈を保存する機能―個別の電子
オブジェクトとして保存し、表示または印刷されたイメージ上に重ねる―を提供しているメー
カーもある。通常使用されている注釈アプリケーションには、独立したポータル規格は存在しな
い。したがって、イメージを別のアプリケーションへ移行する際は、こうした注釈が失われる可
能性を考慮する必要がある。
多くの組織に、この問題は予期せぬ間に忍び寄っている。例えば、マイクロソフトのウィンド
ウズの場合、ウィンドウズ 95 以上のバージョンからは、イメージに注釈をつける機能を初期設
定として備えた TIFF ビューアーが内蔵されている。
最新のバージョン、ウィンドウズ XP では、新たな初期設定のビューアーが内蔵されてい
るが、それまでのビューアーで作成された「焼き付けられて」いない注釈はサポートせず、
表示されない。
11
3.10
認識技術
文書を補足する際、多数の自動認識技術が広く応用されている。
図 4:認識技術
3.10.1
ICR(インテリジェント文字認識)
ICR は、形状を検出するニューラル認識技術を使用している―例えば、大文字の「A」は、右
上がりの斜線と左上がりの斜線、それに水平の直線からなる。ICR は、タイプ原稿にも活字体の
手書原稿にも有効だ(筆記体の手書原稿は無理だが)。また、それまで読み取ったことのないフォ
ントにも有効である。
ICR は、学習させることも可能だ。新たなパターンを認識するよう、利用者がシステムを「教
育」すれば、ニューラル・ネットワーク(神経ネットワーク)に組み込まれるのだ。
3.10.2
OCR(光学式文字認識)
OCR はテキストの文字を認識するのに使用され、通常は、登録されている文字セットとスキャ
ンされた文字のビットマップを比較し、一致するまで繰り返していく(テンプレートまたはマト
リックスの一致)。
通常、OCR はタイプ打ち文字の 98%以上を正確に認識する。ということは、50 字のうち 1 字
は間違いが生じることになり、クレジットカードの番号を処理するアプリケーション(クレジッ
12
トカードの数字は、平均 16∼18 桁だ)では、1件の処理につき 3 個の間違いが生じることにな
る。
精度を高めるため、桁数の検証、郵便番号と住所の相互参照、総合的なバランスやスペルチェッ
クなど多数の技術が使用されている。
3.10.3
バーコード(BCR)
バーコードは、単純かつ非常に精度の高い情報入力技術を備えている(チェックサムを内蔵)
―バーコードは帳票にあらかじめ印刷されていることが多い。手で記入され返送される帳票は、
スキャニング(電子化)するとき索引付けをしなくて済む。バーコードラベルは、索引付けを社内
で実施しても電子化(スキャニング)を外注とする場合などは、スキャニング前に文書を索引付
けしたアプリケーションに使用されることが多い。
3.10.4
OMR(光学式マーク読取)
OMR は、あらかじめ決められた位置に決まった形を認識するための技術である―例えば、枠
内の点やチェックだ。全国の宝くじなどは、単に枠をマークするだけで 100%の精度が(願わく
は)達成されるアプリケーションを使用している。
ソフトウェア検証は、エラーの検証(チェックした枠が多すぎるなど)、またはチェックした
点と無効な点の区別に使われる。
または、署名の検出にも使用される場合がある―署名を認識するためではなく、署名欄に入力
された「何か」をチェックするために。
3.10.5
OCR から ICR へ
OCR は本質的に、テンプレート・マッチング技術で、例えば、ブックマン・オールド・スタ
イルのフォントを使った 10 ポイントの「R」とはどのようなものかの知識を持ち、そのテンプ
レートを認識した文字にあてはめている。
マッチすれば、それがブックマン・オールド・スタイル、10 ポイントの「R」だと識別し、合
わなければ、マッチするまで別のテンプレートをあてはめていく。こうした技術は、今日では比
較的単純なものであり、文書内の書体の識別に、高い認識率と優れた性能を発揮している。但し、
注意すべき点は、ブックマン・オールド・スタイルで 12 ポイントの「R」、または太字や斜体の
「R」は、テンプレート集に無ければ認識されないことになる。
13
一方、ICR は複数の原則からなり、文字と数字の位相を識別する。「R」なら、垂直の線と上
半分に半円、下半分には曲線がついていることを理解している。異なるフォントやポイントも、
明朝、ゴシック、太字、斜体、品質の良くないスキャンでさえも識別可能である。「R」を認識
するための原則を、タイプにも手書きのテキストにも同じように応用しているのだ。
ICR のような技術は適用性が広く、品質の良くない文書や手書文書の認識にも使用できる。
フォーム・プロセシング・アプリケーションの多くが備えている辞書・文脈チェック機能と併用
すれば、OCR よりも遥かに人間の認識レベルに近い性能を得ることができる。
3.10.6
出力フォーマット
どのような認識プロセスからの出力かを、明確に定義しなくてはならない。内蔵されているア
プリケーションは、単純なデータ・ストリーム、もしくはテキスト・ストリームやフォーマット
化されたデータベースの記録が必要なのか?
認識が実行されたイメージは、一旦コンテンツが
抽出または検出されれば廃棄してよいのか、またはアーカイブ用として保有しなくてはならない
のか?
署名が含まれている場合などは、紙の原本も保持しなければならないのだろうか?
3.11
カラーとグレースケール
これまでは、主として白黒のデジタル捕捉技術を見てきた。白黒は非常に効率よく―ピクセル
が白であれ黒であれ、1 バイナリー・ビットで表すことができる。グレースケールはやや複雑に
なり―各ピクセルを最大 256 種類のグレーの影(8 バイナリー・ビット)として捉える。カラー
はさらに複雑で―24 バイナリー・ビットまたはそれ以上となり、イメージはさらに大きくなり、
効率的な圧縮はさらに難しくなる。
JPEG 圧縮のような発展は、こうした制限を克服するのに役立ち、今では白黒に比べ、わずか
に保存スペースをとるだけのカラー・イメージを作り出すこともできる(理由のひとつは、イメー
ジを低解像度でスキャンするからだ ― 人間の目は、カラーイメージを 75dpi のような低解像度
でも鮮明な写真イメージとして見るのに対し、200dpi のテキストは明らかにぎざぎざである)。
今やアーキビストは、白黒とカラー・コンテンツ双方の戦略を考慮すべきである。圧縮技術の
改良や保存・帯域幅におけるコスト削減により、急速にその溝が縮まっているからである。
カラーは文書にコンテンツを追加することができる―図表の明快な説明やカラー写真は肝要
といえるであろう。
カラーは文書に状況説明を追加することができる―例えば、重要語句を黄色でハイライトすれ
ば理解の助けになり、メッセージを強めることになるだろう。色分けは手作業のシステムでも使
われるが(例:「ピンクのコピーは経理」)、カラー認識はそうした機能性を再現できる。
14
カラーは認識に役立てることができる。文字認識ソフトウェアは、カラーをより完全に活かす
ための開発を進めているが、白黒の認識よりも高い精度をもたらすようである。
二律背反の面も正しく理解する必要がある。新製品の写真や技術仕様が掲載されたカラー・パ
ンフレットを考えてみよう。JPEG イメージを使えば鮮明な写真が得られるが、テキスト部分は
判読しづらくなる。TIFF の白黒イメージを使えばテキストは明瞭でも、写真が判別不可能なも
のになるだろう。よって、DjVU に使われている JMP のように、文書の位相を分析し、カラー
か白黒か、テキストか写真か、前面か背景か、などでページの各部に異なる圧縮技術を適用する
多層圧縮技術が開発された。
3.12
マイクロフィルム、マイクロフィッシュ
マイクロフィルム及びマイクロフィッシュは、今後も文書アーカイブにおいて、特に大規模保
存容量(テラバイト以上のもの)を必要とする大型アーカイブにおいて、重要な役割を果たして
いく。電子化とマイクロフィルム化を同時にできるデュアル捕捉能力を持つ文書スキャナーもあ
る―デジタル・イメージはデータ入力やワークフローなどの短期的な利用として、マイクロフィ
ルムは長期保存のためである。
マイクロフィルムからデジタル・アーカイブへ移行する組織は、自社のフィルム・アーカイブ
のバックファイル変換を実施しているし、そうしたサービスを専門に行う多くの変換サービス会
社もある。または、オン・デマンド・変換戦略―必要に応じてマイクロフィルム・アーカイブを
検索し、デジタル変換する―をとっている組織もある。
マイクロフィルム・アーカイブの多くは、オンライン・データベースを通じて、おそらくは、
自動検索システムによって参照される。マイクロフィルムの格納は物理的に一箇所に制限されて
も、索引は広範囲で利用できるので、フィルムのデジタル・イメージを電子的に請求者に送信す
ることができる。ハイブリッド記録を取り入れた記録管理戦略(電子イメージ、電子オブジェク
ト、マイクロフィルム、紙 ― 本や報告書など)を実施するのに、そうしたシステムへの投資を
維持することは理にかなっているといえよう。
75 年以上も保持しなくてはならない記録については、将来的にも常に読み取り可能な媒体と
言う理由で、デジタル・イメージをマイクロフィルムに書き込む機能が現在提供されている。
3.13
電子オブジェクト
逆説のようだが、電子的に作成された文書は、電子アーカイブにふさわしいフォーマットとは
いえないようである。陳腐化したワープロ・フォーマットが障害になるのはもちろんだが、自動
日付表示機能の使用についても考えてみよう。アーカイブされた文書が、もし常に最新の日付で
15
プリント及び表示されるとしたらその有効性はどんなものであろう?
アーキビストは、そうしたポータブル・フォームの文書保存を考慮しなくてはならない。文書
の全文検索能力に影響を及ぼすものの、TIFF イメージへの変換も選択肢のひとつだ。
(しかし、
電子画像を紙へプリントしてスキャンする方法が望ましいのは変わらない)。また、いくらか長
期性が保障されている選択肢としては、RTF や ASCII テキストなどがあるが、その場合、図形
や非テキスト系のコンテンツが失われる恐れがある。
他には、アドビのアクロバット・ポータブル・ドキュメント・フォーマット(PDF)が挙げら
れる。ソフトウェア・パッケージの中には、保存する文書を別のレンデション(表示形式)に、例
えば、オーサリング・マスターとしてのワード文書や、配布・コメント用の PDF レンデション
を可能にするものもある。
PDF フォーマットは、作成された元の文書をマルチフォーマットに変換できるので特に柔軟
性が高い。こうしたフォーマットには、一般的な電子フォーマット(ワープロ、表計算、プレゼ
ンテーション用グラフィックス)
、静止画像、動画・音声、ハイパーテキスト・リンク、そして
紙からイメージあるいはテキスト、または「イメージ+テキスト」のフォーマットでの捕捉など
の正確なレンデションが含まれている。
ウェブ上で使用するため、オブジェクトを HTML フォーマットに変換する場合もある。XML
や XSF はさらに優れ、プレゼンテーションやコンテンツを完全に分離する能力を備えている。
3.14
フォーム(帳票)
フォーム・プロセシングは、文書管理の多くの分野で急速に市場を拡大している。高度なエラー
検証手順を組み合わせた OCR や ICR の技術が発展し、それまでの労働集約的なキー・ツー・ディ
スク作業を、完全に自動化するほどの精度を達成するまでになった。
インターネットもまた、ペーパーレス・フォームという概念を実現するのに一役買った。消費
者は徐々に自分のパソコンに―または電子手帳、WAP モードの携帯電話やデジタルテレビに ―
ファイリングし、表計算ソフトや PDF、HTML、XML フォーマットで配信されたフォームを使
用するようになっている。
特に XML は、フォームを完成するための魅力的な可能性を持っている。全体の捕捉プロセス
―データ・エントリー・フィールド、ドロップダウン完成リスト、検証ルールを、XML のフォー
ムにカプセル化し、ダウンロードして完全にオフラインにできる。
16
4.
情報の捕捉技術と方法
4.1
内作か外注か
いかなる変換作業であれ、実施にあたってまず検討することのひとつは、社内で取り組むか、
文書捕捉サービス会社に外注するかである。これは、最初のバックファイル変換(過去のファイ
ル分)の必要要件と、現行の捕捉業務の双方にいえることだ。変換の実行にふさわしい技能を見
極める必要性を、過小評価するべきではない。単に今いる従業員の誰かを配属し、変換業務を担
当させればよい。従って外部の業者を検討する必要はないと考えている組織が多いが、残念なが
ら、そううまくいくことは滅多にない。
社員はたいていスキルが高く、ビジネス・プロセスに関する詳しい知識や、業務を正確に分類
できる能力を備えている。しかし、彼らはこの変換業務にふさわしいだろうか?
文書のスキャ
ニングや索引付けは単調な仕事であり、熟練したスタッフが配属されれば左遷だと感じることも
ある。そうした業務期間中の離職率や疾病率が目に見えて上昇していることは知られていない。
内作の場合の戦略の一環として、派遣社員や若手スタッフの雇用に踏み切る組織もあるだろう。
この場合のリスクのひとつは、経験不足のため、精度や品質が目標に達しないということである。
また、グループ内に野心を持つ者がいれば、またたくまに必要な専門知識を吸収して自分の力量
を示し、あっという間に他の部署に引き抜かれかもしれない。
外部の業者も、こうした問題を経験しているだろう。しかし、しっかりした業者であればこう
した問題への有効な対処法を学んでおり、サービスの水準を厳密に明確にしたうえで契約すれば、
組織はさらなる予防措置を講じることができる。
メリット
デメリット
内作
機密保持
スキャン及び IT 機器・ソフトウェアへの投資
常に全情報を管理できる
適切なスタッフの獲得、やる気の喚起と維持
既存スタッフの技能と経験を活用できる
学習曲線
「通常業務」の中断を最小限に留められる
繁忙期と閑散期の管理―スタッフの休暇など
外部委託
資本投資が不要
管理がきかなくなる
学習曲線が無い
自社業務についての理解度が劣る
スタッフの補充が不要
「通常業務」の中断が生じる―文書の持ち出しな
自社ではなく他社の基幹業務である
ど
スケールメリット
業者特有のソリューションに束縛される恐れが
ある
図 5:内作と外注の比較
17
どんな方法を採用するかに関わらず、作業は概して同じような流れになる。
管理―文書の種類を定義し、パラメータを設定
操作―ユーザー名をログインすると、自動的にプロセスが起動
前処理
スキャン
・文書の分類・
・ページをスキャン
・OCR/ICR
・キー入力
・イメージを見て、
・バーコード
・OCR 索引を検
バッチ化
・特殊スキャンの手
イメージ処理
索引付け
・フォーム・プロセシン
品質チェック
順を決定
証
・品質チェックと再ス
グ
キャン用タグ付け
仕上げ
・永久保存及び
またワークフロー
に対するイメー
ジと索引の
確認
スキャニング後の処理
スキャン・
プロセシング・
索引付け・品質管理
サーバー
ステーション
ワークステーション
ストレージ・
サーバー
図 6:変換プロセス
可能性のひとつとして、上記の逆手順、つまり索引付けそしてスキャンをすることを検討して
もよい。
これは、作業のうち索引付けが特に複雑で、熟練したスタッフを要する場合に適している。こ
の場合、文書は社内で索引付けできるので、索引付けした文書にバーコード・ラベルを添付して
から、業者に送ってスキャンすることになる。文書がスキャンされると、バーコードを介して自
動的に索引項目との相互参照が行われる。
4.2
従来のアーカイブ
データ処理と文書やページの関係が、非常に複雑になる場合がある。1件の処理が、それぞれ
が1件または複数の文書で構成されるいくつかの下処理を含むことがある。1件の文書は複数
ページで構成されることもある。ページのサイズ、カラー、重さや形状などは文書ごとに異なり、
同じ文書の中ですら違う場合もある。
従業員の離職履歴など、旧の職歴と新規の職歴に関する記録を別々にファイルするかもしれな
い。全体の文書をまとめて一つの処理にできないと、年金の受給権利に関わるためきわめて重要
になるかもしれない。こうした微妙な問題は、紙文書の取り扱いでは、文書をクリップでとめる
18
よりはホチキス止めすることで簡単に管理できる。大切なのは、電子アーカイブが、正確かつ整
合性をもってこのメタデータ(背景、状況)を示すことができるようにすることである。
処理される紙の性質は、最適な捕捉技術と方法の決定に大きな役割を果たすであろう。
原本のサイズと品質が一定なら ― 例えば A4 で 1 ページ、サイズは 1 種類、原本の品質も良
好であれば ― 捕捉プロセスは割合単純である。原本を高速入力スキャナーの自動文書フィー
ダー(ADF)にセット・スキャンし、それから品質管理と索引付けに回せばよい。
原本のサイズは一定で品質もよいが、ページ数がそれぞれ異なる場合、作業はやや複雑になる。
この場合、文書毎にセパレータを挿入するか、または次の工程(品質管理または索引付け)で、
区切りごとにコンピュータで分類するようバッチ処理を組むことで対応できる。ADF 機能付き
のスキャナーに加え、セパレータの認識技術も必要になるだろう。
ホチキスまたはクリップでとめられ、異なるサイズやカラーページで構成されている複雑な文
書には、さらに細かい体制が求められる。前処理の段階で、文書の分解作業(ホチキスを外すな
ど)が必要になることもあり、ページごとに手で挿入しなくてはならないため、ADF が無用の
長物になる場合もある。しきい値の適用も、ページの多様性に対応するためには欠かせない要件
だ。
もうひとつ、前処理の段階で文書をページの構成要素ごとに選別し、類似したページごとに、
あらかじめ最適化しておいたスキャナーの ADF にまとめて挿入する方法もあるが、スキャン後
は、索引付けの前または索引付けの際に、選別したページをコンピュータで再結合しなくてはな
らない。
3 番目は、スキャン前に文書を索引付けし、バーコード・ラベルを作成して文書の各ページに
貼る方法である。それから構成要素ごとにページを分類してスキャンにかけ、バーコードでペー
ジが確実に再結合されるようにしておく。
「最良(ベスト)」方法などはない。作業の性質、ひいては入力後に原本が廃棄されるかまたは
元の状態に戻すかどうかにもよる。
もうひとつ考慮しなくてはならないのが、索引付けは原本を使って行うのか、捕捉したイメー
ジで行うかである。
イメージから索引付けする場合は、文書が読み取れなければ、インデクサーで索引付けできな
いから品質管理をすることになる。一方、原本から索引付けするには、スキャナーが同時に 2 枚
給紙する場合のようにバッチコントロール(管理)をすることになる。
19
4.3
COLD/ERM エンタープライズ・レポート・マネジメント
コンピュータ・アウトプット・トゥ・レーザーディスク(COLD)とは、もともと長期アーカ
イブ用としてコンピュータで作成された、プリント・スプール・ファイルの捕捉プロセスに使っ
た頭文字である。光ディスクへの依存が減少するにつれ、この頭文字は COOL(コンピュータ・
アウトプット・オンライン)になり、最近はより一般的な言葉 ― エンタープライズ・レポート・
マネジメント(ERM)に取って代わられることとなった。
こうした名称変更の動きは、この形式のアーカイブの本質に対する認識の高まりを反映してい
る。当初はメインフレーム・ディスク上でのレポート・アーカイブの保存に対するコスト効果の
ある方法であった。ストレージのコストが下がり、組織がクライアント・サーバ・システムに移
行するにつれ、こうした特殊な需要が減ってきた。事業部は、別の COLD システムを購入すれ
ば、簡単に自部門のビジネスシステムの記憶容量を増やせることができる。しかし、同時に、シ
ステムニーズがより複雑になってきた。例えば、ガス業者が電力を供給し、電力業者がガスを供
給し、複数の異なるシステムで出力されたものが請求書作成時にまとめられることになり、顧客
への請求書がより複雑になった。理論的には、後で情報が再構築されるが(請求書について顧客
がコールセンターに問い合わせた時など)、実際はこの履歴データを同期させることが難しく、
正確さを確実にする唯一の方法は、実際の請求書の記録を保持することである ― そこで、ERM
が必要になる。
事実、出力表示のテーマだけでも、競合上の優位さを示す差分となっている。
当初、ERM システムは単純なプリントストリームを処理するために開発された。APA ― 全
点アドレス可能構造の開発が、大企業の市場向けであれば、ERM 製品がサポートしなくてはな
らない領域として台頭した。
APA は、文書を個人化する技術を備えている。請求書や明細などに、目的に応じた特殊事項を
盛り込むことができる。ヘルプデスクのスタッフが顧客の見ている文書と同じものを見ることが
できれば、個人に対応したサービスができることは間違いなく、顧客の電話を受けた際に抱き合
わせ販売の機会にすることもできる。IBM の AFP フォーマット及びゼロックスのメタコードは、
最も知られた APA フォーマットだ。
特に多国籍企業にとって重要な機能要件が、正しい言語の請求書を正しい用紙に表示し、正し
い封筒に入れて仕分けし、顧客に郵送することである。これは、便箋に表示されたバーコードを
読み取り(バーコードは用紙の隅に印刷されており、プリントプロセスの際に裁断される)
、用
紙を請求書と一致させるという、精緻なプロセスによって実現できる。
第 2 の要件は表示の質である。ドット・プリンタで印刷された簡素な文面が届いたところで、
サービスに満足する顧客などまずいない。そのため、高品質のレーザー・プリント・フォーマッ
20
トが欠かせない ― COLD 業者は、ASCII テキスト・フォーマットだけのサポートにとどまら
ず、自社製品の更新が必要になる。アーカイブ・システムは、顧客が受け取った文書を正確に複
製表示できることが必要だ。タイミングもまた、明暗をわける。請求書が 12 月 31 日にフラン
で表示されており、1 月 11 日に顧客が問い合わせてきた際に、ユーロで複製を再生するとした
ら役立たないであろう。
第 3 の要件は、ワン・トゥー・ワン・マーケティングである。おそらく、請求書は売り手と買
い手の唯一の定期的なコミュニケーションであり、顧客との良好な関係を築く絶好の機会となる。
例えば、一定基準に達していれば割引券の発行が含まれよう。後日、顧客が請求書のコピーを要
求しても、こうした割引券は再発行されないが・・・。
第 4 の要件は、表示媒体だ。顧客は必ずしも紙の請求書を希望しているわけではない。電子
フォーム(e メールまたはインターネット)での請求書受信を奨励し、そうした顧客には価格を
割り引く組織もある。例えば、エッグ社は請求書へのハイパーテキスト・リンクが付いた e メー
ルを送信している。セキュリティのしっかりしたウェブサイトで、HTML フォーマットの請求
書を見ることができる。ファースト・ダイレクト銀行は HTML フォーマットでの取引明細を送
付しており、オプションとしてエクセルや家計簿ソフトのクイッケンでもダウンロードできるよ
うになっている。ワン・テル社は、請求書を PDF で表示している。
ERM システムでその内容と表示の発信源をひとつにし、レポートの正確な複製を保存するこ
ともできよう。または、レポートの「背景」を別に保存し、その上にレポートの内容を重ね、表
示や印刷する場合もある。この場合は管理を確実に行い、毎回正確に重ねられるようにする必要
があるだろう。
4.4
書式の捕捉(Forms capture)
書式捕捉は、標準的なアーカイブ処理の特定のサブセットである。書式捕捉の主目的は、次の
工程で使われる文書から、正確にデータを抽出することだ。したがって、主に考慮するのは、認
識技術の精度ということになる。
したがって品質管理(QA)の過程では、イメージそのものの品質よりも、抽出されたデータ
の精度に焦点をあわせる傾向が高い。しかし、関連する技術は同じといってよい。
書式認識は、処理に不可欠なものだ。異なる様式が混在している場合のスキャンであれば、ソ
リューションを提供できるベンダーは多い。スキャンの際に書式を認識し、自動的に適切な文字
認識プロセスにふりわけ、事前に書式を仕分けしなくてすむようにする。また、
「天地が逆」に
なった書式を認識し、電子的に回転して認識プロセスへふりわけることができるソリューション
が多い。コントラスト調整、斑点除去、デスキュー(斜めに給紙されたページの修正)、書式ド
21
ロップアウト(電子的に書式の背景を除去し、内容のみを残す)といった最適化技術は、認識エ
ンジンに可能な限りの最高品質をもたらす。
認識処理そのものが、書式を最適化している。もしプロセスが捕捉する顧客情報を必要とすれ
ば、その書式の参照番号があると予想される正確な位置に、OCR または ICR 技術が適用される
(ゾーン認識)。認識技術自体をそのフィールドに焦点をあわせることができる ― 例えば、「B」
と「8」の識別ができないが、そのフィールドには数字しかないはずであれば、その条件に従った
「認識は」できる。チェックディジットの検証など、コンテクスト(背景)を利用した検証をする
こともできる。
人間の介入も依然として必要だが、最小限で済むだろう。認識処理で照会事項に対応できなけ
れば、元のイメージの関連部分とそこから読み取った文字が表示され、オペレータが間違いを ―
イメージ全体ではなく ― 訂正できる。
品質管理には、さらに高度な技術を適用することができる。例えば、システムは、読み取った
文字すべてのリストを、文字ごとにグループ分けし ―「a」「A」「b」「B」など ― オペレータ
に表示する。オペレータが A の中に「4」を検出した場合、その文字を選択すると、元の書式の
誤った桁数が強調表示される。
書式捕捉の難点のひとつは、書式ごとにアプリケーションを「訓練」しなければならない。何
百という仕入先と取引のある大きな組織の場合、請求書フォーマットが異なれば、この管理諸経
費はかなりの額となる。
最新の認識ソフトは、この問題に対処している。例えば、請求書がどんなレイアウトでも読み
取りができるソフトである。
他にも、「訓練」面で開発中なのが、書式のレイアウトを教えることも、書式を作り出すこと
もできるアプリケーションである。アプリケーションによっては、紙、PDF、ウェブで使われる
HTML など、異なるフォーマットで書式を再生できるものもある。
新たに開発されたこのような書式捕捉は、インテリジェント文書認識 ― IDR と呼ばれ、これ
により 2 つの主要な分野が自動化された。そのひとつ、レイアウトによって書式の種類を認識す
る機能により、文書の自動索引付けが可能になった。請求書のレイアウトだと認識すると、購入
者の住所などのメタデータを探し、顧客のフォルダ内に記録を追加する。また、認識した書式を、
ワークフロー・システムを通して自動的に関連業務に振り分けるといった使い方もできる。
22
政府のイニシアティブ
手書きの文字
顧客サービス
自動分類
B&C
e書式
Eビジネスを安全に
EAI
制約のある
手形
B2B
XML
1998
1999
2000
2001
2002
2003
ビジネス駆動体
2004
技術的駆動体
図 7:インテリジェント文書認識の駆動体
出典:e ビジネス 2001~3 のための文書捕捉(2001 年 3 月、ストラテジー・パートナーズ出版)
4.5
電子文書
多くの場合、電子文書の入力や e メール及びまたその添付ファイルの入力は、さほど複雑では
ないが、常にそうとも限らない。
文書管理システムの多くは、ワープロ文書などの捕捉のためにオフィス・システムとの単純な
統合を提供している。ODMA 対応のアプリケーションは、保存やインターフェイスの検索に必
要な「鍵」を備えている。例えばユーザーは、ローカルのパソコンのハード・ドライブを使うか
ドキュメント・アーカイブを使うかを選択できる。電子化した原本に適用した同じ規則を使い、
文書や e メール、添付ファイルを分類するためにインターフェイスは、オペレータに単に「空欄
の記入」が表示するだけであろう。
他のオプションには、文書の内容に基づいて自動的に索引付けができるものや、ユーザー個人
がアーカイブを必要とする文書を中央に送り、指名されたアーキビストが完成させる。オプショ
ンには、文書をより可搬性を持つフォーマットへの転換も含まれている。
同じ技術が、事業部のシステムで作成された文書入力処理の自動化にも適用できる。事業部シ
ステムで文書を作成すると ― 例えば顧客への書面など ― 文書とそのコンテクスト(作成状
況)が、自動的にアーカイブ用に回送される(LOB システム及びアーカイブ・システムの API
23
機能にもよるが、たいてい若干のプログラミングが必要になる)。
特にそのようなインターフェイスの挑戦課題が、「メールマージ(ページの集合)」文書である。
ここでは LOB アプリケーションが、ワープロで単独の報告(例えば全てのスタッフに対する年間
給与査定票を作成する HR アプリケーションの共通のもの)を作成するために使われるデータス
トリームを生成する。
レポートの中のそうした文書は、ERM アプリケーションのほうが適しており、単独の統一体
(単一のファイル)として処理するのがよいのか、あるいは従業員別に正確に捕捉・分類しなけれ
ばならないような個々の文書の集合体(複合文書のファイル)とするかを、決めなくてはならない。
例えば給与明細は、COLD レポートで保持される文書だと判断されるだろう。一方給与査定票
は個人別に保存されなければならない記録である。
後者であれば、アーカイブ・システムは、必要な制御機能と安全網を持ち、そうしたことを実
行するツールを備えているだろうか?
著者がよく知っているアプリケーションは、レポートの
各ページを個々の文書に分類し、従業員ごとにアーカイブするのに給与査定票が 2 ページになる
年までは効果的であった。
4.6
文書変換計画
4.6.1
ステップ 1:場所の選択
現場で変換作業(オンサイト変換)を行うべきか、別の場所(オフサイト)ですべきか?
オンサ
イト変換は、変換作業中でも必要とあれば文書を手元に置くことができるが、適切な人材や設備
が必要である。機器の置き場や前処理の場所をつくり、ネットワークの帯域幅を上げることも必
要になるだろう。サービス業者からそうしたサービスの提供を受ければ、さらに機器の設置費用、
要員の旅費や宿泊費などの経費もかかる。
オフサイト変換は管理が楽だが、変換の期間中は文書を使うことができない。組織によっては、
これがプラスになる場合もある。継続的な変換の場合がそうだ。文書は入力を行うサービス業者
に直送され(私書箱などを利用)
、その日の午前中にスキャンされると、午後には当該組織に電
子化されたメージが電子的に回送される。紙の取扱費用がゼロとなる。
4.6.2
ステップ 2:戦術の決定
基本的な選択肢は 3 つある。
・ バックファイル変換 ― 現存の全ての文書の全面的な変換。進行中の業務に先立ち、また
は平行して行われる。組織によっては、バックファイル変換をサービス業者に外注委託す
るが、現行業務は社内で変換する。
・ 段階的変換 ― 現存する文書の変換を、継続中の業務の変換と平行して段階的に行う。オ
24
ン・デマンド方式が可能 ― 諸事情により文書フォルダの検索が必要な場合、現行の文書
をスキャンする ― または文書の「重要性」に基づいて、段階的に変換していくやり方も
ある。
・ 現行 (本日以降)― 継続中の現行業務の文書だけを変換。文書を短期間のみ保有する場合
に効果的である。
4.6.3
ステップ 3: 電子化対象文書の決定
紙で保存されている文書をすべてスキャンする必要があるだろうか?
不要または無関係の情報が含まれてはいないだろうか?
複製文書や古い記録、
変換計画の中に文書の廃棄実行を入
れておくと、コスト効果が高くなる。
フォルダ内の文書ひとつひとつに索引をつける必要があるのか、フォルダ単位での索引付けで
十分でないか?
索引付けのやりかたとして、文書の重要性と索引付けを関連させるのもコスト
効果を高める。
文書をどのくらいの期間保有しなくてはならないのか、こうした保有期間は捕捉の際に自動設
定できるのか?
どの文書をスキャンした後にシュレッダーにかけるのか、内容に関係なく原本
を保有しなければならないのか?
文書へのアクセス権が必要な人は?
将来このアーカイブが一般公開された場合に、必要なセ
キュリティは組み込まれているか?
コピー文書を検出し、削除するにはどういった戦略を立てるべきだろう?
4.6.4
ステップ 4:捕捉用ソフトウエアの選択
文書管理システムの多くは、専門のフロント・エンド捕捉システムと連動して動く。そうした
システムに手作業を省く機能があれば、どのような追加投資であってもすぐに正当化されよう。
その中には、エッジ検出、二重給紙検出、画像のクリーンアップと最適化、ライン除去、ゆがみ
是正、斑点除去、これらはすべて、文書(またはバッチ)を再スキャニングする必要性をなくし、
またその後の索引付けや認識の処理スピードを上げるように設計されている。
品質管理システムも、かなりの時間を節約できる ― イメージ品質の検証、イメージの再ス
キャンが必要になった場合の修正処理管理、バッチの管理手順、管理統計データの作成(処理時
間、量、目標に対する性能)など ―
4.6.5
さもなければ、手作業で照合するしかない。
ステップ 5:スキャナー装置の選択
目的に応じたドキュメント・スキャナーを選ぶことは作業の成功に欠かせないものであり、慎
重にニーズを検討しなければならない。大量のバックファイル処理が可能なスキャナーだと、現
行業務には行き過ぎかもしれない。反面、現行業務に合わせたスキャナーは、バックファイルを
25
管理する仕事には対応できないかもしれない。
・ 給紙する量はどの程度か―一日の平均およびピーク時は?
(ADF)向きか、手動フィーダーのほうが適しているか?
文書は自動フィーダー
平床型のスキャナーは必要だ
ろうか?
・ どんな種類の紙が処理されるのか―A3、A4、片面(シンプレックス)、両面(デュプレックス)、
白黒、カラー?
・ 紙の品質は―重さや状態などは?
2枚送りの可能性は? 支援すべき必要な解像度は?
・ スキャナーは 1 台で十分だろうか?
例えば、大量の「特急」業務用に高速 ADF スキャ
ナーを、
「鈍行」や「修正」用にあまり速くない平床式スキャナーを配備しておくほうがよ
いだろうか?
・ スキャナーは、捕捉ソフトに適しているだろうか―または、ソフトの中にバーコード認識
などの複製機能を備えているだろうか?
・ スキャナーが故障した場合は―修理または交換はどの程度速やかに行われるのか?
お勧めしたい方法は、「購入前の試用」である。同一仕様のスキャナーが、同じように機能す
るわけではない。「実物」の文書でスキャナー一式を試してみることは、常にそれだけの価値が
ある。このため、スキャナーの販売・代理店は、メーカーの異なる各種スキャナーを実演するた
めの実験環境を備えていることが多い。
また、本の背をそのままにしてページをスキャンできるブック・スキャナーや、X 線、マイク
ロフィルムまたマイクロフィッシュ・スキャナーなどの、特別なスキャナーもある。選択肢は限
られており、大量入力でない限り、ほとんどの組織ではサービス業者に外注する。
4.6.6
ステップ 6:前処理手順の定義
バックファイルを行う際に、大量の紙文書が含まれる場合がある。効果的な管理には戦略が必
要である。
・ スキャン方法は―ファイリング・キャビネット別か、顧客氏名別か、部署別か?
・ スキャンのための文書の「貸し出し」方法は、また処分するまで監査追跡をするのか?
・ 重複スキャンやスキャンもれを防ぐため、どのような手順を設定するのか?
4.6.7
ステップ 7:システムの規模
変換を行うと、大量のデータが発生する ― これには、直接アーカイブ・システムにアップロー
ドされる場合と、バッチ単位で CD 化される場合がある。
・ 新しいシステムは、どのようにデータを管理するのか ― 光学ジュークボックスへの転送
か、RAID への転送か、または CD を CD ジュークボックスに挿入するのか?
26
・ 容量は十分か?
・ ネットを使う場合、そのトラフィックが、アップロードと次の検索の双方のネットワーク
に及ぼす影響は?
・ ソリューションにジュークボックスが使用された場合、複数のディスクに分散された文書
の検索が必要になるとしたら、検索にはどのような影響があるか?
4.6.8
スタッフ(要員)の選出と教育
処理における様々な職務を見極める必要がある ― スキャン担当者、索引付け担当者、検査担
当者、管理者 ― そして、決められた各役割に適した技能だ。
・ どのような教育が必要か?
・ 職務はローテーション制にするか?
・ 変換チーム内でのローテーション制にするか、部署全体にするか?
・ 特別昇進の可能性はあるか?
・ 休暇、傷病、退職など不測の事態への対応はどうするか?
・ 生産性が最大限になるように、どのような対策やフィードバックメカニズムがとられる
か?
27
5.
標準フォーマット
数年前までは、文書管理市場についての説明は簡単であった。スキャン・イメージなど、入荷
する文書は 1 種類のみで、処理するアプリケーションも、いわゆる文書イメージ処理(DIP)だ
けだった。イメージは白地に黒か、黒地に白で、圧縮オプションは ITU グループの 3 と 4(か
つての CCITT グループ 3、CCITT グループ 4)、または使わないかであった。原本の状態がよ
くない場合、ユーザーはコピーをスキャンするしかなく、カラーやグレースケールは関心のある
概念で実現は先のことであった。
時間の経過と共に、デジタル・スキャナーとその動力の電荷結合素子(CCD)の性能が向上し
てより精巧になり(現在では、デジタルカメラは高品質フィルムのカメラのライバルだ)
、文書
スキャナーもコピー機としての機能を備えるまでになった。アルゴリズム・アーカイブの圧縮率
は、以前では考えられなかった。保存と帯域幅の容量は、急増している。1992 年に夢だったも
のが、2002 年には現実となっている。
カラー文書で注意すべき点は、フラクタル圧縮技術などの「非可逆」性の圧縮だ。この有名な
例が、とうもろこし畑上空での空中農薬散布の写真である。圧縮イメージでは、とうもろこし畑
は残っているものの、空中散布用飛行機が消えている!
どんな規格にも多少の妥協が含まれる
のは、単に出力がアナログよりはデジタルだからである。
他の技術に、ゾーン圧縮がある。これは、最適な結果を得るためにイメージの構成要素ごと(写
真、テキスト、図表など)に異なる技術を適用する。こうした技術は、市場に大量に出回るより
も、研究所内に留まりがちであった。DjVu フォーマットは、この枠組みを破った例といえるだ
ろう。
圧縮率
保存及び帯域幅のコスト
文書の「密度」
図 8:技術の収束
28
5.1
タグ付きイメージ・ファイル・フォーマット(TIFF)
TIFF 規格は、もとはといえば 1986 年にヒューレット・パッカードやマイクロソフトを含め
た 7 社で規定したもので、現在はアドビが所有し、主なベンダーの大半がサポートしている。例
えば、TIFF ビューアーは、マイクロソフトのウィンドウズ OS の全バージョンで初期設定され
ている。
TIFF 規格の属性で重要なのが、拡張性 ― 新しいタイプのイメージも、サポートされている
既存のフォーマットを無効にせずに組み込むことができる ― そして可搬性である ― ハード
やソフトに依存することがない。
TIFF イメージは、ヘッダー部分とイメージデータで構成される。ヘッダーには「タグ」
(故に
「タグ付イメージ」)が含まれ、解像度や縦横の幅、圧縮タイプなどの属性を定義している。ま
たベンダーは独自の情報 ― キーワードや同様のメタデータ ― またはイメージが次の入力で
改ざんされたかどうかを検出するメカニズム(元のスキャンのピクセル総数を保持しておくな
ど)― を盛り込むことができる。一般的に、あるベンダーが開発した独自のタグは他の業者に
無視され、イメージは「有効」である ― 唯一の例外は、異なる業者が異なる目的のために、同
じヘッダー部分を活用する場合である。
規格の初期の時代は、残念ながらタグの異なる解釈が明らかだった。例えば、あるシステムで
作成された TIFF イメージは、別のシステムではネガとして表示される場合があった。ある開発
者が 1 ビットを「オン」にすると黒になると選択したのに対し、「オフ」で設定していたからで
ある。しかし、そうした矛盾はおおむね解消されている。
TIFF は、多数の圧縮方法をサポートしている。アプリケーションの中には、イメージごとに
異なる圧縮技術を自動的に試行し、最も効率のよいものを保持するバージョンもある。
圧縮タイプ
アプリケーション
非圧縮
圧縮無し ― 劣悪な写真など、イメージがうまく圧縮できな
い場合に必要とされる
イメージ・アーカイブとファックス・ゲートウェイの統合な
ど、通常ファックス送信用文書に適用される
同じくファックス送信用。本質的には 1d と 2d の技術のハイ
ブリッド
白黒の「業務」文書スキャンで最もよく使われる圧縮技術。
ぶれのない白黒イメージのアーカイブに最適の圧縮率
白黒イメージ・ファイルの圧縮に使用
カラーやグレースケールのイメージ用。LZW は JPEG より
も低い圧縮率を実現する可逆性の技術である。
本来の色合いや 256 ビットのグレースケールのイメージ用。
JPEG はアーカイブの圧縮率が良いが、非可逆性の技術であ
る
グループ 3(1d)
グループ 3(1d)修正ホフマン
グループ 4(2d)
パック・ビット
LZW
JPEG
図 9:TIFF 圧縮フォーマット
29
注意すべき点は、TIFF 規格が注釈の使用を直接サポートするものではないことだ。そうした
注釈は、イメージに「焼き付ける」― イメージの別のバージョンを作成する ― か、表示もし
くは印刷時に、別のオブジェクトとしてイメージの上に重ねる(オーバーレイ)ようにしなけれ
ばならない。オーバーレイは移植性がほとんど無いので、TIFF イメージが別のシステムに移行
された場合、注釈が失われるおそれがある。
とはいえ現状では、TIFF 規格は「業務」文書の長期保存として最も確実なものであり、事実
上の規格として広く受け入れられている。TIFF イメージ閲覧ソフトは、今日販売されているパ
ソコンの大多数にプレインストールされており、大多数の業務用スキャンソフト・アプリケー
ションが TIFF イメージの作成をサポートしている。その規格には移植性・拡張性がある。
しかし、単に「TIFF」を規定するだけでは不十分だ ― 適用されるタグ付けの方法にも、注
意する必要がある。特に、イメージそのものに適用される圧縮技術だ。文書に注釈をつける必要
がある場合は、慎重に検討しなければならない。
5.2
Joint Photographic Experts Group (JPEG)
JPEG 規格は、国際規格団体及び大手企業の指名をうけた専門家グループにより策定された。
ISO/IEC JTC1 SC29 ワーキング・グループとして知られる委員会が、イメージ・コードの連続
諧調に関する規格の策定を委託された。この「合同」規格1は、ISO と ITU-T(かつての CCITT)
双方を引用している。
こうして作成された特殊な規格が IS 10918(1ITU-T T.81)で、やはりイメージの圧縮に焦点
をあわせている。この規格版がパブリックドメインに発表され、「JPEG」として一般に広く採
用されるようになった。
JPEG 規格は商業分野にとどまらず、写真(デジタルカメラあるいは個人用(SOHO)のカ
ラー・スキャナーで入力したもの)を e メールで友人や家族に送ったり、個人のウェブサイトを
立ち上げたりする場合など、このフォーマットが家庭でも多数のユーザーに利用されている。
JPEG ビューアーも広く市販されており、一般的なウェブ・ブラウザの多くに内蔵されている。
またデジタルカメラ業者の大半にデファクトとして採用され、大量のイメージ処理パッケージに
も組み込まれている。
JPEG は、その規格の起源の社会的信用、可搬性ならびに採用の普遍性により、写真などのカ
ラー静止画像の長期保存用アーカイブとして、最も安全な選択肢の一つとなった。
1
JPEG の正式名称は、
「Joint Photographic Experts Group(写真専門家合同グループ)」である。
30
ただし、注意すべきなのは、すべての業者が一貫した方法でこの規格を実装しているわけでは
ないことである。あるアプリケーションで作成された JPEG イメージを別の場所で修正した場
合(違うアプリケーションで横長から縦長に 90 度回転した場合など)、元のアプリケーションで
認識できないことがあるかもしれない。
現在、スキャナーの大手メーカー全社は、業務用の大量処理が可能なカラー・スキャナーの種
類を増やしている。カラーの場合、白黒に比べ記憶容量とネットワークの帯域幅に大きな負担を
要求するため、コストとパーフォーマンスが問題になる。
JPEG2000 はカラー圧縮に最適な規格として JPEG に取って代わりつつあり、JPEG の性能
面の問題の一部に対応している。
5.3
グラフィックス・インターチェンジ・フォーマット(GIF)
GIF と JPEG は、インターネット上のグラフィック・イメージに使用される最も一般的なファ
イル形式である。
GIF は、ユニシスが所有し、ライセンスを供与している LZW 圧縮アルゴリズムを使用してい
る。GIF はデータの損失が無く、2 次元圧縮技術を使って、さらに大きな文書を有効な保存サイ
ズで間接的に表示できる。GIF フォーマットのバージョンのひとつ(GIF89a)は、短い動画を
サポートしており、インターレース(ウェブページを重ねたテキストを背景として含むイメージ
に有効)も可能である。
GIF に代わり特許に中立として開発されたのが、ポータブル・ネットワーク・グラフィックス
(PNG)フォーマットである。
5.4
Moving Pictures Expert Group(MPEG)
この規格も ISO/IEC JTC1 SC29 委員会によって策定された(ワーキング・グループ 11 が
MPEG 規格を策定し、ワーキング・グループ 1 が JPEG 規格を策定したが、両グループには共
通点がほとんど無い)。
この規格はデジタルビデオ及びオーディオの圧縮を対象としており、異なる業者が独自に開発
した圧縮アルゴリズムを、同一規格で適用できるようになっている。
MPEG はテレビ会議アプリケーション規格の H.261 と比較されることがある。どちらの規格
にもユーザー向けの独自開発部分があるため、動画の長期アーカイブ戦略をたてる前に慎重に検
討すべきである。
31
5.5
Audio Video Interleave(AVI)
AVI はマイクロソフトが定義したもので、AVI ビューアーはウィンドウズにあらかじめ内蔵さ
れており、それ自体、AVI がオーディオやビデオデータの事実上の規格となるのに一役買ってい
る。一般に、短い動画やビデオクリップに使用されている ― 例えば、動画表示ファイルをある
場所からある場所へコピーする時や、ごみ箱を空にする時などだ。
5.6
アドビ・アクロバット・ポータブル・ドキュメント・フォーマット(PDF)
PDF 規格もまた、アクロバット・ビューアーの幅広い普及と、ウェブ上での広範な取り込み
によって、誰もがどこでも入手できるようになった。TIFF のように可搬性と拡張性があり、世
界の電子文書配信の事実上のオープン・スタンダードとして広く認識されている。
PDF は、文書が作成されたアプリケーションやプラットフォームにかかわらず、原文書のフォ
ント、フォーマット、グラフィックス、カラーを保ち、原本を正確に表示し、印刷することがで
きる。アドビもまた、PDF フォーマットを第三者の開発者に公開している。
白黒の TIFF とカラーの LZW 圧縮イメージは、
イメージの保存、イメージのテキスト化(OCR)、
もしくは「イメージ+テキスト」の変換というオプションで、PDF フォーマットに変換できる。
後者のオプションは、ナレッジ・マネジメント・アプリケーションが一般的になってきたことの
証である。イメージ ― グラフィックスや署名なども含めた完全なもの ― 及び全文検索で使用
するテキストの内容を保持するからである。
5.7
リッチ・テキスト・フォーマット(RTF)
RTF は、フォーマットされたテキスト及びグラフィックスを、アプリケーション間の可搬性
のためにコード化する方法である。異なる出力機器や、操作環境、OS などに使用される。
RTF は米国規格協会(ANSI)、PC-8、マッキントッシュまたは IBM のパソコン文字コードを
使用して、画像及び印刷時の双方で文書の表示とフォーマットを管理し、異なる OS やアプリ
ケーションで作成された文書を、異なる OS やアプリケーションに転送することができる。
5.8
ハイパーテキストマークアップ言語(HTML)
ISO/IEC JTC 1 委員会により定義された HTML は、ISO8879 アプリケーション ― SGML
となった。
HTML は、ウェブ・ベースのアプリケーションとして広く使用され、文書を作成したアプリ
32
ケーションに依存しない文書の互換性のため可搬性のフレームワークを備えている。
5.9
Extensible Markup Language(XML)
XML は、「手軽に実装でき、SGML と HTML の相互運用性をもった、非常に簡単な SGML
のサブセット」として設計された。本来の意図は、「業界固有のマークアップ、特定業者によら
ないデータ交換、媒体に中立な出版、ワン・トゥー・ワン・マーケティング、協働オーサリング
環境におけるワークフロー管理、インテリジェント・クライアントによるウェブ文書の処理
(W3C XML)といった、大規模のウェブ・コンテンツ・プロバイダの要件を満たす」ことだっ
た。
HTML が文書の構造と表示特性を記述するのに対し、XML は、文書に含まれるデータの内容
と構造を記述する。
XML はプラットフォームに依存せず、その単純さは、電子データ交換(EDI)のような方法
に比べ、データ交換アプリケーションに参入するコストを引き下げている。
XML は文書の種類定義(DTD)の作成をサポートする。小さなグループであれ業界全体であ
れ、同じ DTD を採用した取引相手なら、どんなアプリケーションで作成・処理したものでもス
ムーズにデータを交換できる。企業は、自社組織内でも、異なるアプリケーション間の文書やデー
タを交換するメカニズムとしても XML を採用することができる。
33
ベスト・プラクティス・アプリケーション
6.
6.1
林野庁、ベイデン・ブッテンベルグの森林地情報システム(FOGIS)計画
天然資源の管理 ― 時として相反する、環境と経済的利益のバランスをとりながら ― は、世
界中の多くの政府機関の重要課題である。
シュバルツ・バルト
ドイツの南西に位置するベイデン・ブッテンベルグの林野庁は、彼の有名な黒い森を含む同州
の森林の育成と管理の責任を負う。
同庁は、森林調査開発研究所をはじめ 190 の営林局、1,400 以上の森林地帯を含む 4 つの行政
範囲を監督しており、州と国の双方の条例とガイドラインに準拠しなくてはならない。
林野庁の英数字データベースには、膨大な量の生態、資産、統計データが含まれている。この
データの多くは空間的な位置関係を把握するもので、効率よく更新でき、ビジュアル化された地
図でのみ利用できる。
しかし、従来の紙の地図や簡単なコンピュータ・ベースの表示は、もはや最新の森林情報に速
く正確で柔軟性のあるアクセスをというユーザーの要求に応えられなくなっていた。
6.1.1
目的
林野庁もまた、4 つの行政区域と地域環境情報システム間で情報を共有するための手段を必要
としていた。
空間データ処理を使ったタイムリーで正確な森林地図と、そのデータへの通信手段の必要性に
せまられ、同庁は次世代 GIS(地理情報システム)の作成を決定した。このシステムは、高性能
ハードウェアと、カスタムメイドの既製のソフトウェアに基づくものとなった。
目的は、以下のとおりである。
・ 公共・私的・企業の 334 万エーカーの森林育成と管理
・ アナログの製図システムに代わり、空間データ処理を使用した正確な森林地図を適宜作成
・ データベースへの高速アクセス、地図と英数字情報の迅速かつ柔軟な統合処理により、関
連する空間データを継続的に更新
6.1.2
技術ソリューション
ソリューションとなる地理情報システム(GIS)が、林野庁向けに作成された。システムのハー
34
ドウェア構成は、HP ワークステーション、HP のパソコン、HP の ENVIZEX X ターミナルか
らなるシステムに基づくものである。アプリケーション自体は、内部で開発されたソフトウェア
と ESRI の ARC/INFO GIS が内蔵されており、オラクルのリレーショナル・データベースがサ
ポートしている。
図 10:FOGIS システム
同庁が作成した 3 階層の GIS マネジメント・システムは、FOGIS として知られている。
・ 操作レベルは、在庫管理や標準的な地図の作成処理用に加工された非グラフィック・デー
タで構成される
・ 情報レベルは、空間及び英数字の検索をサポートし、データベース全体の統計計算を行う
・ 計画レベルは、シミュレーション用の空間・非空間データ及び森林の運営・管理処理の分
析を選択し、統合する
ハードウェアと GIS ソフトウェアの選択にあたり、林野庁は、開発中の概念的なデータ・モ
デルの支援、効果的なデータ補足をし、データの整合性を維持し、製図・テーマ・分析に求めら
れる処理と出力を実行できるプラットフォームを求めていた。
林野庁は、強力な処理能力を持った GIS を必要としており、このため HP9000 UNIX ワーク
ステーションが選ばれた。また同庁は、システムのメンテナンスを簡単かつ安価なものにするた
35
め、HP プラットフォームを標準化することに決定した。
ESRI の ARC/INFO がソフトウェア・プラットフォームとして選ばれたのは、複雑な製図・
分析データの処理能力や、データ・モデルと国中で一貫したデータ管理の開発をサポートできる
などの理由がある。また、内部で設計するアプリケーション用の開発プラットフォームを提供し
た。
システムは、シュトゥットガルト、カルルスルーエ、フライブルク、テュービンゲンの 4 つの
行政区域のオフィスと、林野庁のバーデン・ウュルテンベルク調査管理センターを結んでいる。
各行政オフィスは HP 9000 モデル 735 ワークステーションを活用し、64 メガバイトの RAM
で、HP の ENVIZEX X ターミナルの起動と ESRI の ARC/INFO 及び ARC/VIEW の作動を行っ
ている。またワークステーションは、X ターミナルのエミュレーション・フロントエンドを作動
する HP ヴェクトラというパソコンにも接続されている。
周辺機器には、HP デザインジェット、
HP ドラフトマスターRX プラスのプロッター及びデジタイザーなどが使用されている。
調査管理センターでは、64 メガバイトの RAM で 2 つの X ターミナルを起動する HP 9000 モ
デル 715/75 ワークステーションが 2 台のパソコンに接続され、オラクルの RDBMS を使ったパ
ソコンベースのデータベース・サーバーが、それぞれインストールされている。林野庁で増設さ
れたアプリケーションもアクセスでき、5 台の装置が ISDN 回線を通じて接続されている。
システムは、同庁の優先順位によって段階的に実装されている。第一段階の目的は、森林計画
の地図作成及び各地の森林の在庫管理のためのデータ捕捉と管理である。
6.1.3
利点と投資効果(ROI)
林野庁は、システム実装の初期段階をベースに、3 つの利点を挙げている。プロジェクト・マ
ネージャーのアンドレアス・ホーンは、次のように語る。
「先ず、デジタル地図への切り替えによって、生産性と品質の向上が期待できる。基本情報であ
るデジタル調査データを使う我々の能力もふくめ、速やかな更新と手軽な地図作成、異なる縮尺
やフォーマットでの製図、地域ごとの計算と在庫の統合などのためだ。
第二に、地理データと森林データの結合により、成果が強化された。なぜなら空間検索やオー
バーレイ、交差、表示などを使った高価な森林データの分析が可能になったためである。
第三に、オープン・システム環境で、ユーザー間、アプリケーション間、部門間で空間データ
を効果的に共有するために ARC/INFO を 3 レベルのシステム概念に適応することで、将来的な
方法を準備したことだ。
最初にあげた 2 つの利点だけで、GIS 技術への投資を正当化するのに十分である。3 つ目の利
点は、将来的な投資規模を決定する決め手となるだろう」
36
6.1.4
適応性
GIS システムは、ベクトルのデジタル化技術による処理が可能なアーカイブ・ニーズの代表で
ある。一般の組織では、そうしたアプリケーションはあまりみられないかもしれないが、文書変
換の特殊なジャンルと、文書がデジタル媒体に変換される状況を生み出す機会を、非常によく示
している。
例えば、英国の陸地測量部によると、業務・レジャー・事務・教育などの目的で組織がデジタ
ル化した地図は、1 億 6 千万ユーロ(約 211 億円)にのぼるという。陸地測量部のデータは、2001
年の国勢調査との照合から、新たな都市住宅開発にふさわしい用地、
「ブラウン・フィールド」の
特定、警察による犯罪パターンの検出にいたるまで、公共生活のほぼあらゆる分野で利用されて
いる。同じデジタル情報が、無数の異なるニーズを満たすために再度使われている。
6.2
サンクチュアリ住宅協会の文書イメージング・システム計画
イングランドで 5 番目の規模をもつ住宅協会、サンクチュアリ住宅公庫の資産は、25,000 以
上の所有地からなる。サンクチュアリは英国各所に 35 のオフィスをもち、1996 年、1997 年の
売上は 8,080 万ポンド(約 1600 億円)であった。ここ 5 年間協会が抱えている課題は、政府の
建築許可が完成する各地区の比率に合わせ減少してきた。このためサンクチュアリは、より効率
的な経営方法の模索を余儀なくさせられた。
同協会は「非営利」団体であるため、経費の用途や意図、投資の妥当性が確認できるよう、細
心の注意を払う必要があった。
協会の住宅在庫は毎年 10%ずつ増加していたため、地所管理のために作成される紙の量も増
え続けていた。1995 年の終わりには紙の量が管理不能なまでになり、協会は、より近代的な紙
文書の管理方法が必要なことを認識した。
6.2.1
問題点と要求事項
協会の処理要件に関する予備調査で、委員会での紙による保存・検索が一番の課題だというこ
とが明らかになった。協会は、一般の企業とやや異なる運営をしており、決議や方針の多くはボ
ランティアによる委員会で決定されている。こうした委員会 ― 特に、中央協議会、経営財務委
員会 ― は、
年数回の会議の度に 100 ∼ 150 ページにもわたる議事録を作成した。したがって、
過去の議事録の検索は、まさしく数百ページを選り分けるという骨の折れる作業であった。
次に重要なのが、毎週届く 2,000 枚の支払済み請求書が保存スペースを占めていることだった。
請求書はすべてハートフォードの本部に送られ処理される。支部からの問い合わせがあった場合
37
も、本部の処理を待たなくてはならない。こうした請求書は、初めレヴァー・アーチで保存され
ていたが、量が増えるにつれスペースの空きが無くなってきた。保存媒体をファイルからマイク
ロフィルムに移行したことで、必要なスペースは減少したが、文書の検索時間は短縮されなかっ
た。
さらに、協会の写真ライブラリーには何千というカラー写真がアルバムで保存されていた。そ
うした写真は内部の刊行物や及び広報活動に使用されていたが、何らかの理由で廃棄されても代
替を作るのは難しく、また極めて高くつくことが懸念された。
全ての問題に対しあらゆる角度から分析され、念入りに検討された。入念に選択肢を検討
した結果、協会は、文書イメージング・システムが必要であると結論づけた。白黒イメージ
だけではなく、カラーも処理する機能が必要であった。また文書の索引付けができ、アーカ
イブ毎に大きく異なる索引方法にも、柔軟に対応できなくてはならない。
6.2.2
技術的ソリューション
1996 年 5 月、協会は業者を選定した。まず、要件をみたすのに必要なソフトウェアを提供でき
る業者、次に大量の支払済み請求書と委員会の議題を扱える管理サービスを備えた業者であった。
HMSL は、ダン・アンド・ブラッドストリートの格付けで優良とのお墨付きがあり、財政的な実
行可能性を含めてあらゆる要件を満たす業者として選ばれた。
システムは HMSL のファイルフロ・ソフトウェアを基にして開発された。このソフトを使って、
今やサンクチュアリは仲介業者、名称、請求総額などから、素早く簡単に請求書を検索できるよ
うになった。
バックファイル移行という点では、既存の請求書のアーカイブをマイクロフィルムに残してお
くことにした。過去 2 年間というもの、古い請求書に対する検索要求は実質的になかったので、
マイクロフィルム・システムはほとんど使用されないことから、バックファイルに関する当初の
戦略の妥当性を実証した。「マイクロフィルム化された請求書を検索する際は、過去に我慢して
使った疑わしい品質のことが思い出される」と、サンクチュアリのピーター・ストウは述懐する。
月ごとの請求書は、スキャンして CD で提供されるようになり、年度末にはすべての情報が索
引付けされ、一枚の CD にすべての記録が収められた。
過去の議事録を探すのも、委員会名や資料、議事項目、さらにはキーワードで検索することで、
著しく改善された。議事録や議題が紙で保存されていた頃は関連文書を探し出すのに数時間を要
したが、今やほんの数秒である。
38
社内報発行部署は、今では電子的に完全なフォト・ライブラリーにアクセスすることができ、
数千枚の写真が収容された CD をバックアップとして初めて持つことになった。写真の追加も、
カラー・スキャナーで取り込めば可能である。
6.2.3 更なる展開
全国的なネットワークが完備されれば、支社への照会も本社に転送することなく、支社の職員
がすべて対応できるようになる。
また、将来的には CD ジュークボックスを設置し、あらゆる情報への自動アクセスを考えてい
る。支社がネットで接続され、データへのリモート・アクセスが必要な時にこれは欠かせない。
人事ファイルの捕捉・保存のために本システムを使うことも計画されている。
6.3
COLD/ERM ソリューション
スタフォードシャー郡議会の計画
1995 年、スタフォードシャー郡議会は、財務諸表をより適切で効率的に作成する方法の調査
を始めた ― 各校の財務管理のため、教育部が毎月作成する膨大なデータの処理に要する時間を
減らすためである。
必要事項を念入りに吟味した後、スタフォードシャー郡は、財務データの保存という当初の目
的に焦点をおいた。当時財務データはメインフレームで作成されていたため、コンピュータのプ
リントアウトは膨大な量になり、これを選別して配信するには多大な労力を必要としていた。
6.3.1
技術的ソリューション
郡議会は、COLD/ERM(コンピュータ・アウトプット・トゥ・レーザーディスク / エンター
プライズ・レポート・マネジメント)に基づくソリューションに決定した。
39
図 11:紙ベースの事務所
スタフォードシャー郡議会は、目的にあった製品としてハイテックのデータストアを選んだ。
データストアの実装以前は、財務報告書の作成は労働集約的で、年 14 回のペースで毎月 1 週間
の手作業にもなっていた。
この手作業には、関連報告書の印刷、選別、ページ番号の丁合、それぞれ LGR 前の 540 校(LGR
後の 430 校)の郡内の小中学校、高校、専門学校への送付が含まれている。教育部はこの手作
業を 2 度行わなくてはならない ― まずは学校への送付用に、次に集中ファイルセンターの控え
用に。その結果、各校は、多い時には 30 種類もの報告書を受け取るため ― 紙の量は、一年で
40 万枚となる!
スタフォードシャー郡議会の教育部がデータストアを実装したことで、それまでのペーパー・
システムに関する諸問題の多くが軽減された。
今ではあらゆる関連財務報告書が、報告書の種類、学校、機関、年度によって自動的に索引付
けされ、オンラインで電子的にアーカイブ(保存)されている。かつて教育部は財務データを 3
年間紙で保持していたが、光ディスク 1 枚には 10 年分のデータが収められる。データストアは、
教育部が何日もかけていた処理を、数時間に短縮したのだ。「我々の役割は支援業務だ」と、管
理・財務サービス担当主席教育役員、デイヴ・チーズマンは語る。
「データストアにより、学校は教育に専念でき、日常の経理事務の大半が削減できた。」
1999 年、スタフォードシャー郡は、コネクティング・ラーニング・ソサイエティ、ナショナ
ル・グリッド・フォー・ラーニング ― 政府のコンサルテーションペーパー ― で設定された政
40
策に沿っているという認定を受けた。
「2002 年以降、学校など高等教育機関への一般的な事務通
信や学校からのデータの大半は、紙ベースでの収集を廃止するべきだ(紙のコピーへの依存の減
少による環境上のメリット、迅速な情報伝達、郵送費の削減などの利点が生ずる)」
ナショナル・グリッド・フォー・ラーニングの一環として導入されたものと同じ技術基盤を使っ
て、毎月の財務諸表が電子的に送信されるようになる。まず試験的に 10 校に導入されたシステ
ムが 41 の高校に広がり、1 年半以内にすべての学校に導入されるだろう。
スタフォードシャー郡議会とハイテックは、各校に報告書を配信するための最良の方法につい
て、合同調査を開始した。最初の選択肢は、各校がデータストア・システムに接続し、現行の財
務データに対する検索を可能にすることだった。
しかし、400 以上のユーザー・ライセンスに伴う費用と、すべての学校がスタフォードシャー
郡議会のネットワークに接続しているわけではないという事実のため、これは実現可能な選択肢
ではなかった。他の選択肢として、スタフォードシャー郡議会は、ワード文書などのコンピュー
タ・レポートをウェブ・ブラウザで閲覧することを検討していた。しかし、どちらのやり方にも
限界があることがわかり、分析を重ねた結果、スタフォードシャー郡議会は、最終的にウィンド
ウズのマイクロソフト・エクセル用のハイブリッド・データストア・ソリューションを選択した
― これは、要求されるすべての機能を備えた唯一のソリューションであった。
ハイテックの API(アプリケーション・プログラム・インターフェイス)により、データスト
ア・ソリューションで電子的な成績表が作成できる ― エクセルシートが表示機能として使用さ
れているのだ。各校が順次処理され、その学校に関わるデータやレポートだけがエクセルシート
に抽出される。各シートは何枚ものページで構成されており、学校ごとに限定された各種レポー
トのみが収められている ― すべての学校が同じ報告書を受信するわけではないのだ。報告書ご
とに個別のワークシートに記入されるため、ユーザーがデータを検索しやすくなっている。デー
タストアが機能すると、このアプリケーションが e メールにレポートを添付し、各校に送信する。
保存されたファイル名から抽出した学校コードを使って学校の参照テーブルにアクセスし、メー
ルアドレスを抽出するのだ。
各校にはユーザー・インターフェイスとデータストアの検索画面が備えられ、抽出されたワー
クシートの検索を実行する ― 各校は特定のワークシート及びレポート別に検索を行うことが
できる。
このユーザー・インターフェイスは、ユーザーに全ワークシートの検索方法を提起している。
「このプロジェクトは、アーカイブされたデータであっても、レポート用外部アプリケーション
が使用可能なことを実証している」と、ハイテックのオートメーション・スペシャリスト、アリ
ステア・アラーズは述べる。
「繰り返すが、これはデータストアと API を使用するメリットの双
方の長所を強調するものだ」
41
スタフォードシャー郡議会は、確実に学校に適宜正確な財務情報を届ける責任がある。データ
ストアで自動作成されたワークシートは、学校に対するサービス向上に役立つだろう。
「データストアにより、各校がリアルタイムで集計結果を受領することが確実になった」と、
デイヴ・チーズマンは述べる。「また、レポート作成の確実性確保のため、即時回答が可能にな
る ― データストアは、さらに有効なソリューションだ」
6.4
レヴィ・ジー・プロジェクト 紙文書から電子ファイルへの移行
イギリスでも上位 20 に入る会計事務所、レヴィ・ジーは、財務及びビジネス・コンサルタン
トを行っており、IT が顧客とコンサルタントの双方にもたらす付加価値についての理解を深め
てきた。
技術により全国展開が進むにつれ、レヴィ・ジーはイギリス全土及び世界中に業務サービスを
提供できるようになった。情報技術に多大な投資を行うことでデータ処理に要する時間を短縮し、
実地調査を効率化した。日々大量の紙文書が発生する業務処理を、紙文書から電子ファイルへ移
行するという決断をくだしたからだ。
こうしたファイルはセンターで永久保存できるため、いつでもどこでも、常に文書が利用でき
る。
電子ファイルを利用することで、レヴィ・ジーの従業員は原本を実際に送付する必要がなく
なった。またチームでひとつの文書を同時に使用できるため、顧客サービスが向上し、職員も柔
軟に動けるようになった。
6.4.1
技術的ソリューション
紙文書を既存のロータス・ノーツ・データベースに移行するにあたり、レヴィ・ジーは HP の
デジタル・センダーという機材と NSi オートストアというソフトウェアを選択した。現在、こ
のデータベースはマイクロソフトのシェアポイント・ポータル・サーバーに移行している。レ
ヴィ・ジーは、イギリス国内及びスペイン事務所に 32 のデジタル・センターを配備した。
6.4.2
利点と投資効果(ROI)
「このソフトとハードの組み合わせは、まさしく人と知識の統合である。顧客サービスの向上、
職員の業務の柔軟性、運営コストの削減など、この技術が示すチャンスに目を向ければ、我が社
の事業に多大な影響を与えるだろう」と、レヴィ・ジーの共同経営者、ジュリアン・シネットは
語る。
レヴィ・ジーでは、深刻なスペース不足に悩まされていたロンドン事務所の問題解決に、電子
42
ファイルが役立った。先日、レヴィ・ジーは大手顧客との事業を開始したが、この件では、電子
ファイルを導入しなければ膨大な紙の保存スペースが必要になったことだろう。
書面や電話、e メールなど、顧客とのあらゆる通信手段をセンターにまとめて保管することで、
レヴィ・ジーのコンサルタントは、顧客についての理解を正確に共有することができた。
また電子ファイルは、同社の人事部の体系化を進め、事務の手間とコストの削減にも一役買っ
ている。HP のデジタル・センダーで、過去及び現在の従業員に関する文書をスキャンすること
により、ペーパーレス・オフィスが誕生し、全社に多大な貢献をもたらした。
人事部長のキム・サンズは、このように述べる。「スキャン・ファイルの導入により効率が上
がり、社内サービスが向上した。
部署の事務コストのおよそ 6 割が削減されたと考えられ、外部業者を使ったプロセスも改善さ
れ、外注費用も削減した。」
この連携が成功したことで、HP とレヴィ・ジーのコンサルティング部は、現在マイクロソフ
ト・シェア・ポイント・サーバー関連のビジネス及び技術サービスに共同で取り組んでいる。レ
ヴィ・ジーの IT コンサルティング部は、分類及び業務のカテゴライズサービスを提供すること
になっている。
「HP デジタル・センディング・ソリューションは、紙を電子文書に変換し、ボタンひとつで配
信できる、安くて早い方法を顧客にもたらす。これば、レヴィ・ジーにとっては大きな前進だが、
我が社の事業に最大の影響を与えたにすぎない」と、レヴィ・ジーの共同経営者、ジュリアン・
シネットは語る。
43
7.
展望
7.1
フォーマット
ある文書フォーマットは時代を超え、長期保存の「安全牌」としてとらえることができる。
ASCII、TIFF、RTF が世界的に使用される規格として確立した一方、PDF、HTML、JPEG、
GIF もウェブ上で広く採用され、標準のグループの一部として急速に地位を確立した。
ウェブ上の電子商取引用アプリケーションを「代表」する規格として、XML が浮上している。
例えば、希望者に申込書を配布し、記入のうえ返信してもらわなければならないとしよう。書式
はワードの形式または PDF、HTML で配信できる。多くの人は、このように電子的に書式を扱っ
たことがあるだろう。しかしながら、そうしたプロセスでは、書式を検証できない。書式が返信
されると、作成担当者が完全性及び正確性をチェックし、必要ならば訂正のための再発行を行う。
こうしたやり直しは紙ベースでのプロセスよりはるかに早いとはいえ、やり直しにはちがいない。
XML は、文書自体に検証規則を埋め込む能力を備えている。つまり、正確さと完全さを文書
自体がチェックし、次の段階のチェックとやり直しの必要性を省く。
技術そのものも十分に確立されている。大半のベンダーはマルチメディアとフォーマットを支
援するソリューションを提供し、アーカイブのニーズにあった最適なソリューションと、文書の
長期保存に使う最適なフォーマットを決定できるようにしている。
7.2
変換戦略
この分野で出版された多くの事例で実証された結果から、変換戦略を成功に導く明確なガイド
ラインが見えてくる。
・ この戦略は、アーカイブは極めて重要な会社の長期資産であるため、他の大型プロジェク
トと同じような詳細な注意をはらって、計画し、調整しなければならない。関連する文書
の性質及びライフサイクルを、徹底的に理解する必要がある。例えば、どのように作成さ
れたか、どの時点での捕捉が最適か、ライフサイクルでの異なる段階での検索プロフィー
ルは何か、アーカイブの分類方法は、文書の保有及び廃棄の要件は何かなど。
・ アーカイブの長期的持続可能性を考慮しなくてはならない。フォーマット及び保存媒体が
保存期間中維持できると仮定するだけでは充分ではない。より高度なフォーマット、また
はより密度の高い媒体へ、あるいはアクセス要件の変更(情報公開法の結果として)に応
じるための定期的なマイグレーション(移行)を想定した主体的な方針が必要となろう。
・ アーカイブの可搬性も考慮しなくてはならない。例えば、人事アプリケーションでは、16
歳で新しく入社した者の文書は、65 歳で引退するまで、更にはそれ以上の期間(死亡時の
44
年金給付額支払いなど)確実に維持できることが必須となる。今日使用されている人事シ
ステムはその時までに陳腐化するかもしれないが、アーカイブには耐久性がなくてはなら
ない。
7.3
アーカイブの価値
アーカイブはそれ自体が資産であり、アクセス用システムや保存方法とは別物だとみなさなく
てはならない。したがって、アーカイブ戦略の立案には、変換方法やアクセス、保存媒体など、
多くの開発要因を考慮に入れる必要がある。
媒体寿命は、文書のライフサイクルに関連付けて考慮しなければならない ― 30 年しか持た
ない媒体で、80 年間文書を保持しなくてはならない例もある。また、アーカイブへのアクセス
に使用されるシステムも、必然的に変更を迫られることになる ― ワード 2097 は、ワード 1997
で作成された文書を読み取ることはできないだろう。
アーカイブ戦略は、変換を行うことのみに関わるのではない。アーカイブが確実に新たな保存
装置に移行し、未知の新しいフォーマットにも変換できるようにしなければならない。
変換費用の大部分は、紙やその他の媒体の分類・変換といった、初期の事務労働である。こう
したコストは、アーカイブの将来の使用意図によって様々である。
製薬研究・開発のアーカイブでは、テキストのあらゆる研究メモの変換が必要になるだろう。
一方、顧客ファイルは顧客名と顧客番号の索引付けだけでよいだろう。したがって、将来的な文
書アクセスとその使用に必要な事項を理解することに時間をかけ、目的に応じたアーカイブにし
なくてはならない。さもないと、今後さらなる変換の必要が生じた場合、手間と費用が数段かか
ることになる。
アーカイブ戦略には、現状のアーカイブの維持も考慮しなくてはならない。フィルムのアーカ
イブは、将来のある時点で新しいデジタル媒体へ対応する必要があろう。紙ベースのアーカイブ
は、今後電子フォームの提出を認める必要があるだろう。
7.4
技術の発展
バックファイル変換は、近年の多くの技術発達の恩恵を享受し、規格と作業標準が国中また世
界中で受け入れられるまでに発展した。
・ 近年の IDR(インテリジェント文書認識)技術の発展は、より費用効果の高いメタデータ
の入力方法と、変換プロセスの自動化をもたらした。
45
・ RAID と光ディスクの保存コストは激減し、性能は向上した。またユーザーも、保存に対
する新たな概念を入手できるようになってきた。そうした構成が、ネットワークアタッチ
ドストレージ(NAS)とストレージ・エリア・ネットワーク(SAN)の 2 つである。また、
これらは共用の直接保存であり、アーカイブにセキュリティとバックアップを組み込んで、
アクセスと性能を向上させるものである。メーカーも、光ディスクの下位互換性に対する
需要に取り組んできた。9.1 ギガバイトの容量を持つヒューレット・パッカードの 5.25 イ
ンチ光ディスクは、今でも 1988 年に発売された 650 メガバイトのディスクを読み取るこ
とができる。ヒューレット・パッカードのようなメーカーは、今後 2 年間に発売される 40
ギガバイトの光ディスクには、同様の下位互換性を付与することを表明している。
・ XML 及び JPEG2000 は、OS や LOB オペレーションの変化に対する将来の保証を備えた
標準の例だ。技術やソフトの主だったベンダーはすべて、こうした規格を取り入れている。
・ 現在、ヨーロッパ諸国のほとんどが電子文書の法的証拠能力に対する国内及び世界の作業
標準を備えており、ISO 標準は草案ができている。EDMS 及び ERMS 業者は、自社シス
テムが確実にこれらの要件を満たすことを保証している。
・ 電子記録の管理に関する規格も、あらゆるレベルで取り組みが進んでいる。ISO15489 が
情報と文書化に関するものだが、2001 年に発行された記録管理の仕様が、欧州委員会によ
る記録管理要件(Moreq)だ。イギリスの PRO も、ERMS 業者が自社製品の査定・認定
用に提示できるように、最低限の ERMS の必要事項を定めている。
高密度光ディスク
・ 三世代以上の下位互換性
120GB
・ 容量の大幅アップ
・ ISO の MO との経常因子の互換性
・ 追記型、書換可能型
80GB
40GB
5.25 インチ MO ISO ロードマップ
10 年間の互換性の向上を
控えめに表したもの
2.6GB
6.5GB
5.2GB
9.1GB
1.3GB
図 12:光ディスク保存の傾向
46
用語説明
ADL(最新の分散学習)
ADL は、米国防省が進めている計画で、共通の技術フレームワークの開発によって、
コンピュータ及びインターネットベースの学習コースウエア間の相互運用性を実現する
もので、再利用できる学習オブジェクトの形でのコンテンツを包含する。
連想アクセス
(Associative Access)
非構造クエリー(テキストパラグラフ)とドキュメントコンテンツストア間のパターンマッチ
ングをベースにした知識検索。
オーサリング・ツール
(Authoring tools)
オンラインコースで使うウエブに対するコンテンツの作成と適用をするツール/SW。e学習ソリューションの作成を支援し、コンテンツと資料をオンライン化した独習オプショ
ンを提供する。
文書をコンテンツに関連した分析によって、異なったグループに振り分け、いわゆる分
類する。分類の方法は、業務プロセスや業務規定によって作られるが、組織内の知識
ドメインに依存する。
分類と分類の仕方
(Categorization/
Category)
CD-ROM 評価
コンピュータ利用の教育
(Computer-based
training)
会社のイントラネットによって提供される CD-ROM を使って、アクセス及び記入する評
価及び調査。CD-ROM を使った評価は、もし評価が受講者の利点となる自己査定で
あれば、デスクトップのスタンドアローンコンピュータ上で使う事もできる。又、CD-ROM
ベースの調査はプリントして(CD-ROM がプリント能力を持っていれば)、紙ベースの
調査として使う事もできる。
CD-ROM、インターネット/イントラネットを含めコンピュータによる教育/研修を説明す
るのに使われる用語。時にはコンピュータ支援教育(CAI, Computer-Assisted
instruction)とも言われる。CBT は非同期学習である。
分類/クラス
(Classification/Class)
文書をその内容を分析して分類するために適用される収集方法。多くの場合、分類
(categories)とクラス化(classes)は同じことを意味する。分類はアプリケーションの意味
論が含まれるのに対して、クラス化は形式的な性格を持つ。
分類する(Classify)
分類(Classification)は、記録に対して保有/処分規定を適用する方法である。Declare
(宣言)機能と同様に、完全な手作業によるプロセスか又は特定の実装状態に依存し
たプロセスによって決められる。
最低限、ユーザーには、ドロップダウンリストから使われるファイルコードのリストが表示
される(手作業による分類)。理想的には、デスクトッププロセス/アプリケーションが、プ
ロセス/アプリケーションのプロパティあるいは特性からファイルコード選択をトリガーし
て、分類を自動化することができる。
コンテンツサーチ
(Content Search)
クエリー(テキストパラグラフ)と文書格納(リポジトリー)の間のパターンマッチングに基
づいた情報検索。
遠 隔 学 習 / 双 方 向
(DLI/IDL)
普通は、ビデオなどによるプレゼンテーションを通して講演を遠隔地へ放送する事を
指す。IDL はリアルタイム学習講義で、異なる場所の受講者が相互コミュニケーション
できる。ビデオ会議、オーディオ会議、ライブのコンピュータ会議(チャットルームなど
も)は、全て IDL の事例である。
文書(フォーマットやフォームが如何なるものでも)、電子メール、又は添付、デスクトッ
プアプリケーション内で作成されたフォーマットに関係なく例えば MS ワードのような文
書を言う。文書には 2 種類ある:
電子文書:文書の母体(テキスト)が電子フォーマットで保存され、読み取られる。もし
記録として宣言されたら、電子文書は管理される記録となる(文書は(宣言された)記
録かもしれないし、そうでないかもしれない)
非電子文書(Ndoc):あらゆるフォームの物理的な文書(地図、紙、VHS ビデオテープ
など)。母体は電子フォームでないが、記述メタデータは、CM 内に保管され追跡され
る。記録として宣言されれば、Ndoc は管理される記録となる。(Ndoc は宣言された記録
かもしれないし、そうでないかもしれない)
文書(ドキュメント)
文書ライフサイクル管理
(Document Life Cycle
Management)
記録のライフサイクルは、記録の生成又は受領から最終的な処分までの寿命期間を
いう。通常は作成、メンテナンス・活用、最終処分の 3 段階に分けて記述される。e-記
録は 3 段階の全てに管理を適用する。e−記録では、記録管理者は、廃棄に適用する
(例えば契約完結後 2 年後の廃棄)条件の記録と実施と同様に、電子記録を廃棄する
時期(永久保有)を判断する正式な規定を作成、維持できる。最終的に、記録管理者
が電子記録の物理的廃棄を行い、法的監査ファイルを維持する。
文書セキュリティコントロー
ル
文書(宣言されない記録)に対するアクセスのコントロール。
注:文書のセキュリティ管理は、記録セキュリティ管理とは異なる。
47
電子記録維持
(Electronic Recordkeeping)
正式な会社の記録維持慣行と方法を、電子文書(記録)に適用することを実践。
電子署名
(Electronic Signature)
署名は、文書においてある条件が発生していることを示すビットストリング。
エンタープライズ・ コンテ
ンツ管理
(Enterprise
Content
Management)
組織に関係する全てのコンテンツ(非構造情報)を管理する。ECM は、歴史的に個別
の三つの技術、ウエブコンテンツ管理、文書管理、デジタル媒体アセット管理を採り入
れる。表面的には違って見えるが、エンタープライズコンテンツのとる形態は、大容量
記憶、検索とアクセス、パーソナル化、旧アプリケーションとの統合、アクセスとバージョ
ン管理、インターネット上での迅速な配信に対して同じ様なニーズを持っている。
EPSS ( 電 子 プ ロ グ ラ ム サ
ポートシステム)
情報に対する統合化した、オンデマンドアクセス、アドバイス、学習経験やツールを提
供する電子システム。本質的には、コンピュータによるコーチング支援(技術を利用し
た知識管理の主導)。
如何なるファイルのディスク“ファイル”(電子媒体に保管したもの)。必ずしも記録と定
義しない。例えば、“サーバに保管されているイメージファイル”は、単に電子イメージ
を意味し、記録の状態を示唆するものでない。電子媒体に対する情報と文書の保存を
記述するコンテクストに使われる。
会社のファイルプランの設計と管理。記録管理者は、ファイルプランの構成要素を設
計できる。Tarian のファイルプランデザイナーでは、記録管理者はファイルプランオブ
ジェクト(ファイル、記録、フォルダーなど)の階層(区分)の設計をし、階層の属性を定
義する。階層間の関係の定義をする(例、ファイルには、ファイル、記録、フォルダーが
含まれるというように)。ファイルプランの多様な概観が定義される。例えば、保管倉庫
概観は、組織における物理的なフォルダーの概観を表示しよう。これにたいし、数字表
示は、メンテナンスの目的のための分類構成を提示しよう。記録管理者は、ファイルプ
ランにおける一貫性を強要する選択リストの作成、ファイルプランの特性を定義する構
成プロファイルの作成、そして日常のファイル作成作業を簡素化するためのデフォルト
値を決める事ができる。方針、許可、停止などをファイルプランオブジェクトに与えよ
う。
ファイル(File)
ファイル計画管理
(File Plan
Administration)
情報発掘(Information
Mining)
コンテンツサーバーのテキスト文書内の隠れた情報を探しだす言語サービス
情報検索
情報検索システム(IR)は、ユーザーの要求に関連する文書の発生源及び所在の有
無などを知らせる。ユーザーの質問の主題に関して知らせる事は無い(例えば、知識
の変更など)。特に質問は除外する。
キーワード検索
言語のマッチングをベースにした情報検索方法
LRN ( 学 習 資 源 交 換 、
Learning
Resource
interchange)
LRN は、IMS コンテンツパッケージング仕様のマイクロソフト実装である。XML をベース
のスキーマと LRN ツールキットで構成されている。
コンテンツ記述の標準の方法を可能にし、ゼロから開発したものであれベンダーから
のライセンスであろうが、XML エディターでコンテンツオブジェクトの作成、活用、カス
タマイズを簡単にする。
情報技術においては、神経ネットワークは人間の脳の働きに近いプログラムとデータ
構成のシステムである。普通、神経ネットワークは、最初に“訓練”させる、即ち大量の
データを入れておく。次にプログラムが、外部の刺激に対してどう対応するかネット
ワークに指示する。(例えば、内容に応じて文書を分類する。)
ニュウラル・ネットワーク
(Neural Network、神経ネッ
トワーク)
パターンマッチング/認識
特徴をベースにしたオブジェクトのマッチング/認識。テキスト文書に関したパターン
マッチングは、多くの特徴がマッチすれば、コンテンツ(内容)がより同じものになるとの
想定の下に、異なった文書から文字と語句を確認・突合せする事を意味する。
個人化
(Personalization)
ユーザー及びウエブサイトのオーナーの観点から、ユーザーに対して、正しいコンテ
ンツを提供する能力。パーソナル化アルゴリズムはコンテンツをユーザーに送るか、そ
して送るとしたらどのような優先順位で送るかを決める。
ポータル
情報(データ)、アプリケーション、人に対して、包括的に、時間と空間を越え(ユビキタ
ス的に)有効なアクセスをする統合化された唯一のポイント。
48
記録(Record)
記録、電子的
(Records, Electronic)
記録管理の統制の下にあるアラユル形の記録された情報。記録は物理的か電子的か
のどちらかである。記録には次の 4 形態がある。
文書:記録と宣言された文書。記録と宣言されれば、文書は記録管理の統制下に入
る。文書(紙)のフォルダー:フォルダー内の個々の文書は記録かも知れないし、そうで
ないかも知れない(Ndoc)。フォルダーの物理的な取扱は、Tarian の Physical Record
Module によって管理される。
箱(ボックス):普通は紙文書の箱。通常は上記のフォルダーを収納。個々に記録とし
て管理されるが、あるいは、ある主題の綴じてない文書のようなフォルダー以外の記録
を含むかもしれない。保存箱の物理的な取扱は、Tarian の Physical Records Module
で管理する。
Ndoc:宣言された Ndoc(Ndoc の定義は上記を参照)
重要:文書(電子又は Ndoc)は、宣言されていないと記録と考えられない。
電子記録(e−記録)。デジタル媒体上に、電子的に記録されたあらゆる情報で記録と
して宣言されたもの(文書)。
e-記録の特性:
文書は電子的フォームである。
その文書に関係するメタデータがある。
文書はファイルプラン(ファイル計画)に基づき分類されている。
権限を持つ記録管理者のみが、文書に対する保有・処分の判断に適用する手段を
持つ。
記録、物理的
(Records, Physical)
記録管理の統制が適用されているフォルダー、箱、Ndoc。
文書(電子であれ、Ndoc であれ)は、宣言された場合のみ e−記録となる。
記録アドミニストレーション
管理(アドミニ)基盤は、記録管理担当者が、宣言された記録を全組織的に収集する
仕事を意味する。ブラウザーベースのウエブアプリケーションで、Tarian の Records
Administration Client 内で実施される。このプロセスはエンドユーザーの目に触れな
い。次の四つの大きな活動で構成されている;
ファイルプランアドミニストレーション、レコードセキュリティコントロール、ライフサイクル
管理、レポーティング(報告)。
レコードマネジャー(Record
Manager)
記録の管理(アドミニ)機能の一つ又は複数の機能を実施する。
記録セキュリティ−・コント
ロール
リポジトリ
宣言された記録に対するアクセス統制。ユーザー及びユーザーグループが作られ、記
録のユーザーがアクセスできることを決めるために相互作用する付与された役割と方
針。
注:記録セキュリティは文書セキュリティコントロールとは違う。
電子記録ソリューションによって管理されるデータからレポートを作成するプロセス。先
ずレポートが設計され、デザインが後で使用するために保存される。次に、レポートの
デザインがデータに対して打ち出され報告書が作成される。
文書及び/又は電子記録の物理的保管(格納)。
保 有 ル ー ル ( Retention
Rules)
(保有一覧表、リテンションスケジュール)。記録を保持する期間(保有)設定とライフサ
イクルの終了時にどうするか(処分)を明示する一連の規定。
統語的分析
(Syntactical Analysis)
統語分析によって、言語辞典・文法をベースにした単語や語句の統語分類が生まれ
る。 例:家(house)−名詞
シソーラス
同義語及び関連する概念グループの単語をリストした本。
量(Volume)
フォルダー。ボリュームはフォルダーとして参照される。(米国では共通の用語)
仮想現実(VR)
ユーザーを 3 次元の世界にいるような感覚を与える擬似の現実に引き込む仮想現実
シミュレーション(通常はヘッドギアと電子グローブの着用を含む)
報告
49
略語リスト
ASP
AVI
BCR
BPM
CBT
CCD
CM
COLD
COM
COOL
DBMS
DMS
DRT
ECM
E-Learning
ERM
ERP
E-Term
FDDI
GIF
HTML
ICR
ICT
IDM
ISDN
ISO
JPEG
KM
LAN
LDAP
MoReq
MPEG
NAS
OCR
ODCB
OLE
OMR
PDF
PPP
RMS
RTF
SAN
SQL
TCP/IP
TIFF
WAN
WCM
WebDAV
WORM
XML
Application Service Provider
Audio Video Interleaving
Bar Coding
Business Process Management
Computer Based Training
Charge Couple Devices
Content Management
Computer Output to Laser Disk
Component Object Model
Computer Output On line
Database Management System
Document Management System
Document Related Technologies
Enterprise Content Management
Education, training and structured information delivered electronically
Enterprise Report Management
Enterprise Resource Management
European programme for training in Electronic Records Management
Fibre Distributed Data Interface
Graphic Interchange Format
hypertext Mark-up Language
Intelligent Character Recognition
Information and Communication Technology
Integrated Document Management
Integrated Services Digital Network
International Standards Organization
Joint Photographic Experts Group
Knowledge Management
Local Area Network
Lightweight Directory Access Protocol
Model requirements for the management of electronic records
Moving Pictures Expert Group
Network Attached Storage
Optical Character Recognition
Open Database Connectivity
Object Linking & Embedding
Optical Mark Recognition
Portable Document Format
Point-to-Point Protocol
Records Management System
Rich Text Format
Storage Area Network
Structured Query Language
Transmission Control Protocol/Internet Protocol
Tag Image File Format
Wide Area Network
Web Content Management
Web-based Distributed Authoring & Versioning
Right once read many times
eXtensible Mark-up Language
50
参照
用語の引用は、大半は個人というより組織からのもので、多様な出典源からの用語に関する説明を
統合したものである。
下記に主要な語彙のいくつかと語彙に関する権威あるウエブサイトをリストする。
記録管理に関する英国公的記録管理局の
刊行物
http://www.pro.uk/recordsmanagement
電子的に保存された情報の法的許容性と証拠 http://www.bsi-global.com
力に対する実践規定
記録管理に関する国際規格
http://www.records.nsw.gov.au/publicsector/
standards/introintl.html
Ordnance survey(英国公式陸地地図)
http://www.ordbvy.gov.uk/
JPEG フォーマット
http://jpeg.org
MPEG フォーマット
http://mpeg.org/MPEG/index.html
GIF/LZW フォーマット
http://unisys.com/inisys/lzw
XML フォーマット
http://www.w3.org/XML/
PDF フォーマット
http://www.adobe.com/products/acrobat/
adobepdf.html
Sliger, Susan
文書変換計画
http:www.convertdoc.com/
51
著作会社
ヒューレットパッカード社
ヒューレットパッカード社は、コンピューティング、イメージングソリューション及びサービスの主要なグロー
バルプロバイダーで、技術及びその利点が全ての人に手に入るように努力を傾注しています。
HP の 2001 年の総売上は 45.2 億ドルでした。
HP 及びその製品に関する情報は、ワールドワイドウエブ http:www.hp.com から入手できます。
連絡先の著作会社
European headquarter
Hewlett-Packard GmbH
Nancy Romany
Schickardstrasse 32
71304 Boeblingen-Germany
Tel: +49 (0)7031 14 6837
E-Mail: nancy_romany@hp.cop
52
記録、文書、エンタープライズコンテンツマネジメントに関する
公共セクターのための AIIM 業界白書
捕捉、索引、及び自動分類
デジタルアーカイブズに保存された情報の取得と検索の知的な方法
ISBN 3−936534−01−2
ヒューレット・パッカード社
変換と文書フォーマット
デジタルアーカイブズの保存された情報のバックファイル変換とフォーマットの課題
ISBN 3−936534−02−0
ファイルネット社
コンテンツマネジメント
情報のライフサイクルの管理
ISBN 3−936534−03−9
IBM
アクセスと保全
オープンアクセスと情報保全の管理
ISBN 3−936534−04−7
コダック
可用性と保存
デジタル情報の長期の可用性と保存
ISBN 3−936534−05−5
TRW システムズヨーロッパ/UCL−大学カレッジロンドン
教育、研修及びオペレーション
従来のアーキビストから情報マネジャーまで
ISBN 3−936534−07−1
53
AIIM 白書の発行にあたり
この 6 部からなる AIIM 業界白書は、欧州における国、中央地方レベルの公的機関とアーカイブズ
のニーズに対応し、そして情報の取得、管理、長期保存、多言語アクセス、索引、研修問題につい
ての関連するトピックスに関するアーカイバルの課題のために入手できるソリューションについて欧
州全体の公共セクターを教育する為に発行されました。
DLM―フォ−ラム
現在の DLM は仏語で“機械読み取りのできるデータ”という意味ですが、バルセロナでの DLM―
フォーラム 2002 後、この定義を拡大して、完全な“ドキュメントライフサイクル管理”を採り入れると提
案されています。DLM―フォーラムは、アーカイブズの分野における大きな協力に関連し、欧州審
議会が決定した結論に基づいています。バルセロナにおける DLM―フォーラム2002は、編成を要
する電子記録に関する第 3 回の多角分野の欧州 DLM―フォーラムとなるでしょう。1999 年の第二
回の DLM―フォーラムは、ICT 業界(情報、通信、と技術)に対し電子文書と記録管理に対する実
行可能なソリューションを確認・提供するよう要請した挑戦を足場として会議は開かれるでしょう。情
報社会という状況の下に、欧州アーカイバル遺産の継続的なアクセス性を確実にし、且つ保護する
タスクが、電子記録に関する DLM フォーラムの主要な関心です。DLM―フォーラムは、情報社会の
記憶として、アクセス可能なアーカイブズの保護と提供を狙いとした多角的な努力に、業界が積極
的に参画し、ユーザーとの協力の下にこの目的のための製品の改善と開発をするよう要請していま
す。
欧州委員会 SG.B.3
Office JECL 3/36, Rue de la Loi 200, B-1049 Brussels, Belguium
A/e: dlm-forum@cec.eu.int
AIIM インターナショナル − エンタープライズ・コンテンツ・マネジメント協会
AIIM インターナショナルは、エンタープライズ・コンテンツ・マネジメント(ECM)のサプライヤーと
ユーザーのコミュニティを結ぶグローバルな展開をする業界の協会です。中立的なバイアスのかか
らない情報の発信源として、AIIM インターナショナルは、教育とソリューション志向のイベント及び年
次大会の開催、各種刊行物やウエブポータルを通して最新の業界情報を提供しています。また、
ANSI(米国規格)/ISO(国際標準規格)認可の標準規格作成団体です。
AIIM ヨーロッパは DLM-監視委員会のメンバーであり、DLM/ICT ワーキンググループの活動を
コーディネートします。
AIIM インターナショナル、ヨーロッパ
Chappell House, The Green, Datchet, Berkshire SL3 9EH, UK
http://www.aiim.org
54
記録、文書、エンタープライズ コンテント マネジメントに関する公共セクターのための業
界白書
この業界白書は、欧州における国、中央、地方レベルの公的機関とアーカイブズニーズに対応し、そし
て情報の取得、管理、長期保存、多言語アクセス、索引、研修問題についての関連するトピックに関す
るアーカイブズの課題のために入手できるソリューションについて欧州全体の公共セクターを教育する
ため、欧州委員会の DLM-フォーラムおよび AIIM インターナショナル ヨーロッパによって発行されまし
た。エンタープライズ コンテンツ管理技術の主要なサプライヤーがこの白書の作成に参画し、欧州共同
体の公共セクターの電子アーカイブ、文書管理及び記録管理の課題に焦点を当てています。
変換と文書フォーマット
この白書では、多種類の多様なフォーマットを含む現存する物理的な保存文書を電子フォーマットへの
変換を考慮する際、持ち上がる課題を取り上げています。問題は性格が広い範囲にわたっており、大量
の文書を含む捕捉のロジスティック、作業プロセスにおける変換の実行と通常の業務オペレーションの
維持をするための適切な戦略及び戦術の決定、そして適切で、信頼のおける、持続性のある文書
フォーマットの採用など含まれています。
本白書の日本語版は、AIIM インターナショナル(本部及び欧州)から翻訳権を得て、社団法人日
本画像情報マネジメント協会が、デジタル時代における文書及び記録のコンテンツ管理の複雑な
問題に対する欧州の取り組みが、わが国の官公庁及び民間企業のみならず、業界及び学識関係
者にとっても、一つの参考モデルケースとなることを願い仮翻訳・発行するものです。
日本語版に対する発注及び問合せ先:
社団法人 日本画像情報マネジメント協会
東京都千代田区鍛冶町1−9−15
電話:03−3256−6984 Fax:03−3256−7038
ISBN 3-936534-00-4(シリーズ)
ISBN 3-936534-02-0
55