|
Heritrix はインターネット・アーカイブが開発したWeウェブアーカイブのためのWebクローラーの一種。Java言語で実装され、フリーソフトウェアライセンスにより自由に利用できる。主にウェブブラウザを使って操作するが、コマンドラインツールを使ってクロールを開始するなどの操作も可能である。名前は「(女性の)相続人」を意味するheiressの古語に由来する〔https://webarchive.jira.com/wiki/display/Heritrix/Heritrix〕。 Heritrixの開発は、2003年にまとめられた仕様に基づいて、インターネット・アーカイブとNordic National Librariesの共同で行われた。最初のリリースは2004年1月で、その後インターネット・アーカイブの従業員や外部のウェブアーカイブに関心を持つ人々によって継続的に改良が続けられている。 もっともHeritrixがインターネット・アーカイブ自身のウェブ収集に使われるようになったのはかなり後のことである。かつてはアーカイブの大半はアレクサ・インターネット社から提供されていた。アレクサ社は自身の業務に供するため独自のia_archiverと呼ばれるクローラーを使ってウェブ収集を行っており、収集したデータをインターネット・アーカイブに寄贈している。当初インターネット・アーカイブ自身もHeritrixを使って収集を行ってはいたが、小規模なものに留まっていた。 2008年からインターネット・アーカイブは自身の全ウェブ規模のクローリングの性能を向上させ、現在では自身で収集したものが大半を占めるようになっている〔http://blog.archive.org/2013/01/09/updated-wayback〕。 == Heritrixの利用事例 == 様々な組織、各国国立図書館などがHeritrixを利用している。例えば: * Austrian National Library, Web Archiving * Bibliotheca Alexandrina's Internet Archive * Bibliothèque nationale de France * British Library * California Digital Library's Web Archiving Service * CiteSeerX * Documenting Internet2 * Internet memory * Library and Archives Canada * Library of Congress * National and University Library of Iceland * National Library of Finland * National Library of New Zealand * National Library of the Netherlands (Koninklijke Bibliotheek)〔http://www.kb.nl/organisatie/onderzoek-expertise/e-depot-duurzame-opslag/webarchivering/technische-aspecten-bij-webarchivering〕 * Netarkivet.dk * Smithsonian Institution Archives * National Library of Israel * 国立国会図書館 インターネット資料収集保存事業 (WARP) 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「Heritrix」の詳細全文を読む スポンサード リンク
|