|
ウェブアーカイブ (web Archive) は、WWW(Web、ウェブ)全体もしくはその一部を収集し、そのコレクションを後世の研究者、歴史家、一般大衆のために保存して、アーカイブとしたもの。 Webのサイズは膨大であるため、Webアーカイブではクローラを使って自動収集を行う。最大規模のWebアーカイブ機関は、Web全体のアーカイブ作成を自動・手動の両面で行っている「インターネット・アーカイブ」(Internet Archive)である。 各国の国立図書館もまた文化的に重要なWebコンテンツを保存しようとしており、フランスでは2001年にウェブページのウェブアーカイブ化を義務化する法律が成立した。 2004年には、日本でもこの方面のアーカイブを検討するという方向が小泉内閣で打ち出され、国立国会図書館による事業が始まった。 == Webの収集 == Webアーカイブはクローラを使ってウェブページの収集プロセスを自動化している。クローラはWebの一般利用者がブラウザを使ってWebコンテンツを閲覧するのと同じようなやり方でWebページを辿っていく。Heritrixクローラは有名なツールの一つであり、アーカイブ的なクロールを行うのに用いられている。 Webアーカイブで収集されるのは、あらゆる種類のWebコンテンツである。これにはHTMLのウェブページ、スタイルシート、JavaScript、画像、ビデオなどが含まれる。さらに収集したリソースに関するメタデータも蓄積する。例えば、アクセス日時、MIMEタイプ、サイズなど。これらのメタデータにより、アーカイブされているコレクションの信頼性と同一性を確保できる。 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「ウェブアーカイブ」の詳細全文を読む 英語版ウィキペディアに対照対訳語「 Web archiving 」があります。 スポンサード リンク
|