Дослідницький центр HathiTrust і Україна

Некомерційна організація наукових бібліотек HathiTrust зберігає понад 17 мільйонів зацифрованих документів задля досягнення наукових, а не корпоративних інтересів. HathiTrust підтримує відразу кілька програм і послуг – програма спільного збереження друкованих видань Shared Print Program, програма Федеральних документів США, програма перевірки авторського права Copyright Review Program та (найцікавіше для мене) Дослідницький центр HathiTrust, що пропонує використання корпусу HathiTrust як набору даних для аналізу. 

Просто електронною бібліотекою давно вже нікого не здивуєш, а от HathiTrust Research Center розробляє програмне забезпечення та кіберінфраструктуру ​​для розв'язання технічних проблем з якими стикаються дослідники при роботі з величезною кількістю зацифрованих текстів. 

На сторінці Центру доступні легальні повнотекстові колекції, інструменти, документація та код. Відразу питання – чи вдасться комп'ютерним алгоритмам попрацювати з україномовними текстами? 


Перевірив і зараз цифрова бібліотека HathiTrust містить майже 25 тис. документів українською мовою. Чому саме ці тексти потрапили в бібліотеку? Схоже, які україномовні публікації були у фондах американських бібліотек-членів HathiTrust, ті й потрапили. 

А якщо ми хочемо попрацювати зі своїм корпусом текстів? Чи можна додати свої матеріали? Потрібно виконати ряд вимог і щороку сплачувати понад $7K за членство. Підозрюю, що жодна бібліотека в Україні поки не готова на це витрачатись.

Немає коментарів:

Дописати коментар