Elektronikus levelek gyűjteményi kezelése

2023. március 24. 06:00 - nemzetikonyvtar

Szent Gábriel arkangyalt 1951-ben XII. Pius pápa tette meg a postások védőszentjévé. Eredeti ünnepe március 24-e, a katolikus egyházi kalendáriumban 1921 óta szereplő szent ünnepnapja 1969-ben került át szeptember 29-ére (Szent Mihály és Szent Rafael napjára). Lukács evangéliuma szerint ő Isten hírvivője, aki Keresztelő János és Jézus születését is hírül adja. A magyar koronázási palást rekonstrukcióján és a szent koronán is ott szerepel alakja. Gábriel arkangyal őrködik a Hősök tere fölött, a Millenniumi emlékmű obeliszkjén is. Bár napjaink elektronikus levelezése nem postás által jut el hozzánk, Gábriel ezért is felel: nemcsak a postások, hanem általában a távközlés védőszentje is. Blogbejegyzésünk ebből az alkalomból az elektronikus levelek gyűjteményi kezeléséről szól.

gabriel_2_opti.jpgZala György: Gábriel arkangyal a Hősök tere obeliszkjén. A kép forrása: Wikipédia (magyar kiadás)

A hagyományos, papíralapú levelek gyűjteményi kezelése természetes dolog, a világon mindenütt feladata a könyvtáraknak, levéltáraknak, múzeumoknak. Az OSZK kézirattára is jelentős mennyiségű levelet őriz, ezek forrásértéke, kutatási felhasználhatósága a különböző tudományágak számára magától értetődő dolog. A levelek digitális kiadása is fontos feladata és kutatási területe a nemzeti könyvtárnak, a 2021-ben indult Copia projektünk keretében és a dhupla.hu digitális bölcsészeti platformon is jelentetünk meg digitalizált leveleket, valamint digitális kritikai és forráskiadásokat. A papíralapú levelek gyűjteményi kezelése, kutathatóságának biztosítása réges-rég kidolgozott eljárásrenden alapul. Ugyanakkor a már napjainkban is tömegesen – akár a gyűjteményekben is – rendelkezésre álló elektronikus levelezések anyaga szinte teljesen hozzáférhetetlen, mivel a kezelésükre nincs még kidolgozott módszertan. Írók, költők, képzőművészek és más jeles személyiségek digitális hagyatéka, ezen belül elektronikus levelezése egyre gyakrabban fogja a könyvtárak, levéltárak, múzeumok dolgozóit nagy kihívások elé állítani: már jelenleg is vannak a különböző gyűjtemények birtokában számítógépek, adathordozók, amelyek jelentős archiválandó anyagot (benne levelezést) tartalmaznak.
Az OSZK Digitális Bölcsészeti Központja egyik kiemelt célkitűzése, hogy az elektronikus levelek gyűjteményi kezelésének a módszertanát kidolgozza. Ez a tevékenység még a Petőfi Irodalmi Múzeummal karöltve kezdődött, ahol első projektként a 2020-ban, a pandémia apropóján indult hangoskönyv-kezdeményezés elektronikus levelezését dolgozta fel a PIM Adattára. Ennek a projektnek a keretében hatvan színész felolvasásában több tucat kortárs magyar irodalmi mű vált hangoskönyv formájában ingyenesen elérhetővé. A szerzőkkel, valamint a jogtulajdonosokkal folytatott elektronikus levelezés természetesen fontos forrásanyag, megőrzendő gyűjteményi elem a PIM számára, ezért elő kellett készíteni a digitális megőrzésre. A megkeresett szerzők között szerepelt Ágh István (született Nagy István) költő, Nagy László öccse is, aki épp ma tölti be a 85. születésnapját. A közös munka eredményeképpen ún. SIP-csomagok készültek (l. alább), amelyek tartalma viszont nem nyilvános.
Milyen nehézségekkel kell szembenéznie egy gyűjteménynek, ha e-maileket szeretne kezelni? A born digital objektumok között speciális helyet foglalnak el az e-mailek. Bár az első e-mailt Ray Tomlinson több mint 50 éve (1971-ben) küldte el magának, és 1981 óta szabványos az üzenetek formátuma, egyelőre az e-mailek digitális gyűjteményi megőrzésének a módszertana eléggé kiforratlan. Ennek fő oka a digitális archiválás egyik nagy problémájában, a digitális objektumok, azon belül az e-mailek nagyfokú heterogenitásában rejlik. Az elektronikus levelek heterogenitása sokrétű: az üzenetek több, különféle típusú csatolmányt tartalmazhatnak, lehetnek bennük beágyazott nem szöveges tartalmak is. A gyűjtemények számára a válogatás is nagy kihívást jelent: az igen nagy arányban előforduló levélszeméten (spam) túl az érdektelen, megőrzésre nem (feltétlenül) érdemes üzenetek (pl. számítógépes rendszerek automatikusan generált értesítései, válaszai stb.) kiszűrése megoldandó feladat. További gond az e-mailek esetében az adatvédelem biztosítása, valamint a jogi problémák: az érzékeny adatokat tartalmazó levelek kezelése, a személyiségi jogi keretek megtartása, a levéltitok megsértésének elkerülése.

email_parts_opti.jpgA szabványos e-mail felépítése. A kép forrása: Preserving Email. 2nd Edition. Ed. Christopher J Prom. DPC Technology Watch Report 19-01, May 2019. 16.

Az e-mailek archiválási módszertanának a kidolgozására az Andrew D. Mellon Alapítvány és a Digital Preservation Coalition 2016-ban munkacsoportot hozott létre (Task Force on Technical Approaches for Email Archives). Három fontos dokumentumban foglalták össze munkájukat: egy jelentésben (The Future of Email Archives. A Report from the Task Force on Technical Approaches for Email Archives. Council on Library and Information Resources. August 2018.), egy összefoglaló kézikönyvben (Preserving Email. 2nd Edition. Ed. Christopher J Prom. DPC Technology Watch Report 19-01. May 2019.), valamint egy ajánlásban az e-mailek szabványos PDF-konverziójára (A Specification for Using PDF to Package And Represent Email. EA-PDF Working Group Technical Report Published by the University of Illinois at Urbana-Champaign. January 2021.). Kézikönyvük szerint az e-mailek archiválásában három megközelítésmód alakult ki: a bitszintű megőrzés, a konverzió (migráció) és az emuláció. Vannak olyan gyakorlatok is, amelyek ezeket kombinálják.
A bitszintű megőrzés esetén az eredeti formában, a digitális megőrzés kialakult módszereivel mentik és metaadatolják az e-maileket. Esetenként előfordul a csatolmányok kibontása és külön tárolása is.
A konverzió (migráció) esetén az e-maileket szabványos formátumra konvertálják. Ez az EML-be és/vagy MBOX-ba mentésen túl jelentheti az e-mailek XML-lé alakítását is egy, az elektronikus levelekre kidolgozott séma szerint. A nemzetközi e-mail-archiválási gyakorlat egyik gyakori megoldása a hosszú távú megőrzésre a PDF-konverzió (l. fentebb).
Az eredeti környezet lehetőség szerint a legtöbb részletre, kontextuális elemre is kiterjedő másolatának az előállítása (emuláció) is előfordul. Ez a technikai nehézségek és a limitált hozzáférhetőség miatt nem igazán elterjedt eljárás.
Külön érdemes szólni a digitális megőrzésben széles körben használt csomagolás eljárásáról. Ez egyfelől alkalmas arra, hogy az összefüggő struktúrát alkotó fájl- és könyvtárszerkezeteket ily módon egyben tartsa (pl. egy közösségimédia-profilról készült HTML-exportot vagy éppen az e-mailt és csatolmányait), másfelől a csomagban tárolt metaadatok szabványos formátuma garantálja, hogy időtálló módon, szoftver- és platformfüggetlenül, az archivált tartalommal együtt tudjuk tárolni azokat. Fontos szerepe a csomagnak az adatcsere során bekövetkező adatvesztések, adatsérülések kivédése is: a metaadatok között ott vannak a fájlok ellenőrzőösszegei (checksumjai), amelyek egyedi azonosítóként alkalmasak arra, hogy a csomagok küldése-fogadása során azok tartalmát validálni lehessen. A csomagolás eljárásrendjére vonatkozóan több ajánlás is született, az egyik, széles körben elterjedt a BagIt (a Library of Congress ajánlása). A BagIt-csomagok előállításához rendelkezésre állnak szoftverek is.

bagit_opti.jpgA Library of Congress munkatársainak a BagIt-csomagokról szóló posztere. A kép forrása: John Kunze–Stephen Abrams: The BagIt file package format (ppt). In: Slideshare. A Scribd company

Az e-mailek időtálló megőrzésének is a (konverzióval kombinált) csomagolás a legjobb módja. Egész postafiókok, vagy célszerűen válogatott levélegyüttesek is csomagolhatók. A csomagnak négy fő komponense lesz: maguk az archiválandó üzenetfájlok (eredeti és lehetőség szerint EML-formátumban is), a csatolmányok, az e-mail headerjéből kinyert technikai és leíró metaadatok, valamint a csomagolóeljárás által előírt egyéb elemek (főként metaadatfájlok).
A Mailbag Project az USA-beli New York állami egyetem (University at Albany) munkatársai által indított kezdeményezés, amely egy olyan csomagolási eljárás kidolgozását kezdte meg 2021-ben, amely a BagIt specifikációt terjeszti ki, és megoldást nyújt az e-mailek archiválásának a legtöbb problémájára. Az eljárás lényege az, hogy az e-mailek (akár teljes levelezés) tartalmát szabványos formátumra konvertálja (EML, PDF, WARC), majd ez(eke)t az eredeti fájlokkal, valamint a csatolmányokkal együtt egy csomagban archiválja a BagIt specifikáció által előírt metaadatfájlokkal együtt. Ennek a megoldásnak nagy előnye, hogy az így létrejövő csomagokat (amelyek megfelelnek az OAIS-referenciamodell előírásainak is) az általánosabb célú digitális megőrzésre fejlesztett repozitóriumszoftverek is tudják kezelni (mint amilyen az Archivematica vagy a RODA). A csomagok létrehozásának a megkönnyítésére külön eszközt fejlesztettek, amelynek neve Mailbagit.

oais_model_opti.jpgAz Open Archival Information System referenciamodell sematikus ábrája. A kép forrása: William Kilbride: An invitation to review and reform. In: OAIS Digital meets Culture

Az így létrejövő csomagok az OAIS-modell szerinti SIP-csomagként bekerülhetek a digitális megőrzési környezetbe, és AIP-csomag állítható elő belőlük. Az ajánlás az archiválási feladat céljainak megfelelően testre szabható, pl. nem írja elő mindegyik konvertált formátum használatát kötelezően (csak minimum egyet).
Az OSZK Digitális Bölcsészeti Központja ezt az eljárást a Katalist levelezőlista archiválásával próbálta ki. A könyvtártudományi és informatikai levelezőlista az 1990-es évek eleje óta működik, de az archivált anyaga csak 1997-től hozzáférhető. A korábban az NIIF, jelenleg a KIFÜ gondozásában lévő anyagot 2022 augusztusában kaptuk meg egy 3,64 GB méretű MBOX-fájlként, amely 43 250 levelet tartalmazott a 10 267 csatolmánnyal együtt. A csatolmányok között 4749 kép – .jpg (3391), .png (1012), .gif (297), .bmp (29), .jpeg (14), .tif (6), 1808 PDF-fájl, 1133 .doc, 410 .rtf kiterjesztésű fájl és sok más volt található. A listára 8658 címről érkezett levél. A teljes anyagból a Mailbagit szoftverrel készült egy BagIt-csomag, amely tartalmazza az eredeti MBOX-fájlt, a belőle kibontott EML-fájlokat, valamint konvertált formátumokat (TXT, HTML, WARC). A csatolmányok külön mappákban találhatók. Az így létrehozott archiválási (AIP-) csomagból előállíthatók a szolgáltatáshoz szükséges (DIP-) csomagok. Pl. a WARC-formátum felhasználható arra, hogy a leveleket egy a webarchiválásban használt megjelenítőeszközzel böngészni tudjuk, sőt: mivel ez az eszköz a teljes tartalmat indexeli is, akár szabadszavas keresésre is lehetőség nyílik. Az eljárásról további hírek és információk találhatók a dhupla digitális bölcsészeti platformon.

email_dhupla_opti.jpgAz e-mail-archiválás leírása a dhupla digitális bölcsészeti platformon

Kalcsó Gyula (Digitális Bölcsészeti Központ)

komment

A bejegyzés trackback címe:

https://nemzetikonyvtar.blog.hu/api/trackback/id/tr2618076800

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

süti beállítások módosítása