A színművészeti lexikon projekt

Dátum: 
2017. június 8. 17:00

2017 junius 8-n 17-h kor kerül sor az alábbi projekt bemutatójára:

Az 1929-31-es magyar színművészeti lexikont feldolgozó projekt kapcsolódik mind a reputációs eliteket vizsgáló történetszociológiai, mind általánosabb érdekű digitalizációs projektjeinkhez, melyeket a Wesley Egyház- és Vallásszociológiai Kutatóközpontban (információ) folytatunk.

Reputációs elitvizsgálataink során – melyeket Karády Viktor és Nagy Péter Tibor közösen építettek fel az elmúlt két évtizedben (információ) – alapvető meggyőződésünkké vált, hogy az elitek meghatározásának legjobb történeti módszere a lexikonok vizsgálata. A lexikoncímszavak kiválasztása (általánosságban, kevés lexikon kivételével) sokkal alaposabban tükrözi egy-egy kor (társadalmi, vagy szakmai) közvéleményében „fontosnak tartott” személyek (az un. reputációs elit) névsorát, mint a bizonyos pozíciókat elértek listájából megalkotható elitlista. (információ) A pozíciók betöltése, kitüntetések elnyerése elé a magyar történelem szinte bármely korszakábanszámos esetben felekezeti, nemzetiségi, politikai akadályok tornyosultak. A magyar társadalom valamennyi elitcsoportját – így a színművészeti elitet is - jellemzi, hogy felekezeti, nemzetiségi és politikai összetétele – nemcsak a hazai átlagnak nem felelt meg, hanem annak a képnek sem, amit a kitüntetéseket és pozíciókat adományozók megfelelőnek láttak volna. A „kisebbségi” és „ellenzéki” pozícióban lévő – de saját szakmai köreikben elismert, vagy a történelmi mérlegen megmaradó - személyek megfelelő súlyát általános és szaklexikonok segítségével mutathatjuk be. Ezek egyike az Országos Színészegyesület által 1929-31-ben kiadott színművészeti lexikon.

Digitalizációs projektjeink –melyek közül elsősorban a Magyar Zsidó Lexikon digitalizációját szeretnénk itt megemlíteni (információ) – két tényből indulnak ki. Az egyik, hogy napjaink lexikonhasználati gyakorlata az internetes információforrások javára szinte teljesen háttérbe szorította a papíralapú lexikonok használatát. A régi lexikonokat háttérbe szorító – s már interneten található – lexikonok, adattárak néha egyszerűen gyengébbek, mint évtizedekkel ezelőtti tematikus társaik. Gyakran persze jobbak és korszerűbbek, ahogyan jelen esetben is igaz, hogy a 90-es évek színháztudományi lexikonja (információ) korszerűbb, mint a projektünkbe bevont kézikönyv. De még ezekben az esetekben is igaz, hogy a minden kézikönyvnél jelentkező terjedelmi korlátok szükségszerűen csökkentik a régebbi időkről szóló címszavak arányát, illetve a rájuk eső terjedelmet. A digitalizálás tehát annak a munkának hasznosítása - potenciális köztudatban tartása - amit egy-egy értelmiségi csoport évtizedekkel ezelőtt befektetett. (információ) A másik tény, hogy a régebbi papíralapú kézikönyvek – a leggondosabb tárgymutatókészítési gyakorlat mellett is – számtalan olyan információt hordoznak, mely nem tárul fel a kézikönyv használója előtt, hiszen – noha releváns egy személy vagy jelenség elemzéséhez – nem abban a szócikkben, nem abban a fejezetben van, ahol a felhasználó keresi. Az egyszerű – szkenneléses, karakterfelismeréses digitalizáció is segít némiképpen ebben, hiszen karaktersorokra minden dokumentumban lehet keresni, de Booleanoperátorokhoz, azaz kombinatív keresési lehetőségekhez szoktatott korunkban ennél differenciáltabb igények mutatkoznak. E keresési lehetőségek olyan összefüggéseket is feltárhatnak, melyeket a kézikönyvek egykori szerkesztői sem láthattak.

Ezért az 1929-31-es színművészeti lexikont egy minden korábbinál mélyebb analízisnek vetettük alá, hogy kialakítsunk egy jól kereshető adatbázist. Ennek fázisai következnek az alábbiakban. Ezek nem technikai részletek, hanem a keresési lehetőségeket, s a korlátokat is belőlük értheti meg az olvasó.

  1. A projekt első fázisában a négykötetes lexikon beszkennelése és a karakterfelismertetés történt meg. A pdf file-ok – egy oldal egy file – azt tették lehetővé, hogy az azonos oldalon előforduló karaktersorozatokra, szavakra kombinatív kereséssel rá lehessen találni. E keresés kiszolgáltatott volt a téves karakterfelismerésnek, s annak, hogy az abc véletlene szerint egymástól teljesen független címszavakban előforduló információk között hamis összefüggést sugallt, míg a több oldalra széttagolódó hosszabb szócikkek belső összefüggéseit rejtve is hagyhatta. Érvényesült viszont az a fontos elvünk, hogy a lexikonban található szavakra akkor is rá lehessen találni, ha valaki ismeri a lexikont, s akkor is, ha minden előzetes ismeret nélkül egyszerüen beír egy nevet az internetes keresőbe.
  2. A következő fázisban azzal könnyítettük a felhasználó dolgát, hogy elkészítettük a címszavak listáját, a születési évszámok segítségével lehetővé tettük az azonos nevű személyek elkülönítését. A címszavakat kategóriákra osztottuk, férfinevekre, női nevekre, település nevekre, idézetekre, műcímekre, színháznevekre, intézményekre és színházi fogalmakra. Ez már 2010-ben használhatóvá vált a MEK-ben.
  3. Ebből keletkezett a segédadatbázis, melyben minden egyes címszó külön sort kapott, sőt a hosszabb címszavak, melyek a könyvben több oldalra terjedtek ki, annyi sort ahány oldalra kiterjedt. A segédadatbázis 12327 sorból áll, ebből 11972 sor új címszó kezdetét jelzi. A címszavak végleges listája – 2017 elejére kialakult formájában, azaz az azonos címszavak elkülönítését első szavaik segítségével lehetővé téve – e szöveg alján látható.
  4. A következő fázis volt a munka leginkább időigényes része. B. Kádár Zsuzsanna végigolvasta a teljes szöveget, szegmentálta a címszavakat, kijavította a karakterfelismerési hibákat és a szövegben megjelölte az előzetesen meghatározott tárgyszó-kategóriákat: a településeket, a személyneveket, a nemzetiségeket, a nyelveket, a szerepeket, a műveket, az intézményeket. Az első kötettel már 2013-ban végzett, az utolsóval csak 2017-ben. Az első kötet már 2013-tól kereshetővé vált a MEK-ben, s 2017. 04. 18-ig 7070 érdeklődő kereste fel.
  5. 2017 márciusában a szövegbankból egy olyan, több mint egymillió soros full text SPSS adatbázist alkottunk, melyben egy-egy szó jelentett egy-egy esetet. Az adatbázis természetesen tartalmazta azt a 20000-s és 30000s számkörben alkotott fiktív számot, amit az egyes címszavak elkülönítésére használtunk, valamint az egyes sorok szócikken belüli pozícióját, egy 1-4 jegyű szám formájában. Ebben az adatbázisban került sor az előzetesen elhelyezett kódok ellenőrzésére, javítására. A kódokkal felszerelt szavak illetve kifejezések önálló változókba kerültek, s a szövegből olyan változat is keletkezett amelyet nem terheltek kódok.
  6. A kódokkal felszerelt szavakból, kifejezésekből képzett változókon kívül kialakítottuk a Budapesttel kapcsolatos változót, mely mindazokat a településneveket egyben és külön is kezeli, melyek a jelenlegi Budapesthez tartoznak. A településváltozóból az 1910-es állapotnak megfelelő megyeváltozót hoztunk létre. A Kárpát-medencén kívüli településnevekhez – vállalt következetlenséggel – hozzárendeltük azon országok nevét, melyek területén 2000-ben fekszenek.
  7. Kialakítottuk az évszámváltozót, ügyelve arra, hogy a műcímeken belüli évszámok ebbe ne kerüljenek bele. Az évszámváltozóból évtizedváltozót alakítottunk ki és minden egyes tárgyszó mellé odarendeltük azt az évtizedet, melyre feltehetően vonatkozik, azaz ami a szócikkben a szó előtt utoljára szerepelt. (Természetesen a halál évét, mely a szócikk elején szerepelt ebből kizártuk.) Ha a következő évszám illetve a halál éve alapján nem kellett ezt kizárnunk, akkor a „valószínű évtized” mellé még „bizonytalan évtizedeket” (maximum kettőt) is rendeltünk. Minthogy az évtizedváltozó kialakítása gépi úton történt többféle hiba is lehet benne: elképzelhető, hogy az adott szerep, vagy mű már másik évtizedhez kötődik, de a lexikonszócikk szerzője ezt nem évszámmal, hanem stiláris eszközökkel jelzi. Néhány esetben az „1001.” és „1931.” közé eső jelzések nem évszámot, hanem például honoráriumot jeleznek,de ez csak szövegösszefüggésből világlik ki. Kivétel nélkül kimaradnak az évszámváltozóból az ókori és koraközépkori események, hiszen az 1-3 jegyű számok és az évszámok elválasztására gépi úton nem találtunk módot. A születési év változó azonban ezekben az esetekben eligazít.
  8. Ezt követően a segédadatbázis segítségével egy „elosztó adatbázist” hoztunk létre, melyben az azonos szóval kezdődő címszavak közös kódot kaptak. Ebből az adatbázisból leválogatás, szöveges mentés, majd htm-mé alakítás segítségével mutató fileokat hoztunk létre. Tehát például az „abonyi” mutatófile hatjegyű kódot kapott s az összes olyan címszót tartalmazta, mely az abonyi szóval kezdődött.
  9. A tárgyszóként megjelölt szavakból listákat hoztunk létre, a listákba bekerült az évtizedváltozó és természetesen a címszó is. 2017 áprilisában a következő listák állnak rendelkezésre: megye, Budapest, ország, személynév, szerep, műcím, intézmény, nemzetiség, nyelv, Születési év, időpont, . A megyei és ország listák a településnevek abc-ben keresését is támogatják.
  10. Ezt követően az elosztó-adatbázisból képzett keresőszavak segítségével a fő adatbázis minden egyes tárgyszóként megjelölt szava mellé odahelyeztük a megfelelő hatjegyű számot, így minden tárgyszóról látni lehet: van e az adott szóval kezdődő címszó.
  11. Leválogattuk az egyes szócikkekhez tartozó adatbázisdarabokat, s azokból három-három dat-mentést hoztunk létre.
  12. Az első mentésbe azok a változók kerültek, melyek az eredetileg megjelölt szavak mellé olyan „forrópontokat” iktattak be, melyek az egyes listák felé mutattak, illetve információt kínáltak fel. A listák a tárgyszavakból készültek, lehetővé téve tehát a felhasználó számára annak elemzését, hogy meghatározott szóhoz (meghatározott feltételezett évkörben) milyen más címszavakban tartozik hasonló találat. (lásd 9.pont) Az információk pedig az elosztó-file-ok felé vezetnek, azt mutatják, hogy olyan kezdettel milyen címszavak találhatóak még a lexikonban. (Lásd 8.pont) Ennél biztosabb módszert nem találtunk ahhoz, hogy az olvasót el is vezessük az őt érdeklő címszavakhoz, de egyben figyelmeztessük is: mérlegelnie kell, hogy valóban arról a személyről, vagy műről van e szó az adott szócikkben, vagy csak szóazonosság esete forog fenn.
  13. A második mentésbe a főszöveg mellett a kódokkal felszerelt szavak olyan formában kerültek, hogy a google keresőmotorja megtalálja őket, pl yszemelynevy aradi vagy yintezmenynevy aradi formában. Ez az emberi olvasás számára haszontalan, apróbetüs anyag.
  14. A harmadik mentésbe viszont csak az eredeti szöveg került. Ennek funkciója az, hogy összefüggő szabadszavas kereséseket a kódok és linkek zavaró hatása nélkül lehetővé tegyen, illetve, hogy aki a szöveget vagy annak egy részét kódok vagy linkek nélkül szeretné magának kimásolni, ezt könnyedén megtehesse.
  15. A három-három szöveget egyetlen htm file-ba kapcsoltuk össze, a szövegbe beírt htm –eket valódi linkekké változtattuk.
  16. Index file-okat hoztunk létre melyek az elosztó-file-okra, címszó-file-okra és a lista-file-okra mutattak. Így a google keresőmotorja az index file-ok segítségével éri el az egyes file-okat.
  17. Az adatbázist előre meghatározott struktúrában helyeztük el a MEK – ben. Az index file-ok kerültek legközelebb a gyökérhez, az elosztó-file-ok (lásd 8.pont) az e alkönyvtárba, a lista-file-ok (lásd 9. pont) az a alkönyvtárba, míg a szócikk file-ok (15.pont) a w alkönyvtárba kerültek.

 

B. Kádár Zsuzsa – Nagy Péter Tibor

Javasolt olvasnivaló:

http://mek.oszk.hu/08700/08756/html/szocikk/index19.htm