I . Digitalización de documentos hemerográficos
1.1 Definición de hemeroteca.
Las hemerotecas brillan por su número reducido y por el desconocimiento
general de sus actividades por parte del público e incluso de la
mayoría de los profesionales de la información. El término
que define a la hemeroteca es reunir, conservar y difundir colecciones
de periódicos y revistas, sin embargo no aparece en la gran mayoría
de los diccionarios profesionales, como el diccionario Lorousse, entre
otros. Por fortuna, no siempre es un término olvidado y así,
Domingo Buonocuore dice en su Diccionario de bibliotecología sobre
el término hemeroteca “(del gr. hemera, día, y theke,
caja, depósito). Este vocablo ha sido reconocido por el diccionario
académico para significar el local donde se guardan y coleccionan
periódicos, diarios y revistas”.
El término fue propuesto por el periodista y bibliotecario parisiense
Enrique Martín, conservador de la Biblioteca del Arsenal de París,
en el Congreso Internacional de Bibliotecas, realizado en esa capital en
1900. Según el Larousse en su XX ed., la palabra está mal
formada y en su sentido estricto debería ser eferoteca, del griego
ephemeris, función de cada día, y theeke, caja o armario.
Por su parte, tanto el diccionario de la Real Academia de la Lengua
Española en su vigésima primera edición como el diccionario
ideológico de Julio Casares coinciden en definir hemeroteca como
una biblioteca donde principalmente se guardan y sirven diarios y otras
publicaciones periódicas. Juan Iguíniz en su Léxico
bibliográfico, además de los conceptos anteriormente expuestos
define a la hemeroteca "Neologismo que designa las colecciones de
periódicos y el local destinado a su conservación".
En estas definiciones se puede ver que, en términos generales,
se trata a la hemeroteca bien como una parte o sección de una biblioteca
o bien como una biblioteca especializada dedicada a conservar y difundir
publicaciones periódicas. Para efectos de este trabajo son
aplicables estas últimas definiciones.
1.2. Digitalización de documentos
La digitalización de textos consiste en hacer el reconocimiento
óptico de los caracteres de un texto cualquiera a fin de guardarlo
posteriormente en un documento de texto.
“El escáner es un dispositivo que permite digitalizar imágenes,
es decir, convertir imágenes y textos escritos en datos comprensibles
para el ordenador”.3
El escáner ha sido desde hace algún tiempo una herramienta
esencial para tiendas de fotografía y video, para empresas de publicidad
y en general para tareas de documentación.
Pero gracias al escáner y a los programas OCR (Optical Character
Recognition - Reconocimineto óptico de caracteres), normalmente
incluidos con el propio escáner, podemos no sólo copiar,
sino también editar y posteriormente modificar con nuestro procesador
de texto preferido un artículo digitalizado de una revista, enciclopedia,
folleto, periódico, etc.
“Los escáner tienen una barra de luz que ilumina la superficie
a escánear o digitalizar (ambos términos se utilizarán
indistintamente a partir de ahora). Esta barra de luz contiene un número
determinado de CCD (Charge-Coupled Devices - dispositivos de acoplamiento
de carga, o en palabras más sencillas, circuitos integrados sensibles
a la luz) que detectan la cantidad de luz emitida por la barra que es reflejada
por la superficie u objeto digitalizado y la convierte a formato analógico”.
4
Proceso de digitalización de documentos e imágenes
En este punto se explica el proceso de digitalización de documentos
e imágenes de forma muy sencilla, como una primera etapa se trabajará
sobre documentos con tamaño máximo A4, siendo éste
el tamaño de escáner más común.
Existen muchas marcas y tipos de escáner, los más recomendados
son: HP, EPSON, MICROTEK, AGFA y UMAX. Tomando en cuenta que no todos cumplen
los requisitos para todos los tipos de materiales (fotos, libros, revistas,
diapositivas, negativos, etc.)
Es importante contar el software Acrobat ya que proporciona diversos
medios para convertir documentos al formato de documento portable (PDF),
sirve para convertir documentos sencillos, como los creados en aplicaciones
de proceso de textos u hojas de cálculo. Acrobat Distiller permite
convertir documentos más complejos, como los creados en aplicaciones
de dibujo, autoedición o fotoedición.
Digitalización de documentos
Es muy importante saber que un texto digitalizado es tomado de una
imagen de tipo blanco y negro, esto es, antes de que sea texto editado
es una imagen. Los requisitos para reconocimiento de texto son: imagen
tipo blanco y negro y una resolución de 200 a 600 pixeles por pulgada
(PPI).
Antes de comenzar a digitalizar y reconocer texto se debe analizar
el material propuesto para no perder tiempo y esfuerzo, en otras palabras,
debe asegurase que tanto la letra como su tipografía cumplen con
las características para reconocerlas electrónicamente. Ejemplo:
si es un documento antiguo y la letra se encuentra cortada o muy tenue,
entonces la dejamos como imagen y no como texto editado. Sin embargo, si
el documento es antiguo pero su letra es clara y la tipografía es
estándar entonces tratamos de reconocerla aunque tenga algunos errores.
Digitalización de páginas a partir de documentos en papel
Puede utilizar el comando Acrobat Scan para ejecutar el escáner
desde Acrobat. Antes de comenzar la digitalización compruebe que
el escáner esté correctamente instalado y que funciona por
separado de Acrobat. Siga las instrucciones del escáner y compruebe
los procedimientos para garantizar una correcta configuración. Acrobat
es compatible con los controladores de escáner TWAIN de tipo normalizado,
que son compatibles con prácticamente todos los escáner.
Pasos para digitalizar páginas a partir de un documento en papel:
1.- Inicie el escáner y coloque en él la primera página.
2.- En Acrobat, elija Archivo > Importar > Digitalizar.
3.- Elija el escáner y un formato de página en los menús
emergentes. El menú emergente "Dispositivo" muestra todos los controladores
que hay instalados en el sistema.
4.- Seleccione si desea añadir las páginas digitalizadas
al final del archivo PDF actual o colocarlas en un archivo nuevo.
5.- Haga clic en Digitalizar.
6.- Configure las opciones de digitalización en la interfaz
del escáner; para un buen reconocimiento de texto la resolución
deberá ser de 200 a 400 puntos por pulgada (DPI) dependiendo de
la calidad y tamaño de la letra, obviamente el tipo de imagen será
en blanco y negro.
Algunos escáner abren un cuadro de diálogo con
opciones, otros muestran una barra de menús que permite acceder
a los comandos de configuración de opciones. En la mayoría
de los casos, también deberá hacer clic en el botón
Digitalizar o enviar la página al escáner de alguna otra
forma.
Digitalización de Imágenes
Antes de comenzar a digitalizar se debe analizar el material que quedará
como imagen, esto es que tomaremos decisiones de cómo van a quedar
las imágenes ya en la computadora. Por ejemplo: Si tenemos una serie
de revistas médicas que contiene texto, imágenes en tonos
de grises, imágenes en color, gráficas en color y cuadros
de comparación en blanco y negro, se tendrá que decidir si
todas las imágenes quedarán en color, tonos de grises o en
diferentes tipos. Hay instituciones que manejan una gran cantidad de imágenes
y por ello deciden digitalizar a tonos de grises y con una resolución
de 75 a 100 DPI por su menor almacenamiento en disco, un ejemplo de esto
son las gráficas de producción donde lo más importante
es la información cuantificable. Pero si el color es una característica
importante como en el caso de las imágenes del satélite que
ayudan pronosticar el clima, no se puede cambiar a tonos de grises, puesto
que el color es el indicador más importante, además se digitalizan
con una resolución de 300 a 600 DPI.
Pasos para digitalizar imágenes a partir de una, fotografía,
dibujo, etc.
El proceso de digitalización es lo mismo en cualquier escáner,
lo que cambia son las opciones del software y la diferencia más
común es el idioma, la mayoría de los softwares de escáner
ofrecen las mismas opciones para digitalizar, las cuales son:
Explorar - Importar Imagen
Éste es el primer paso para capturar una imagen, aquí
el software nos muestra la ventana de captura, la cual contiene un área
blanca que representa a escala la cama del escáner y están
activadas las siguientes opciones.
1. Previsualizar
Ejecutando esta opción obtenemos una imagen previa de lo que
se encuentra dentro del escáner, muestra una imagen sin definición
o un bosquejo de la misma, nos da una idea de lo que vamos a digitalizar.
2. Selección del área de Captura
En el área blanca que representa la cama plana del escáner
hay un recuadro ajustable a lo ancho y a lo alto, con éste podemos
seleccionar una parte o todo el documento.
3. Resolución de Salida:
Seleccionemos una cantidad de puntos por pulgada desde 75 DPI hasta
300 que es lo óptimo para el ojo humano.
· 75 DPI: Resolución al tamaño real del documento,
se usa para montarlas en la WEB, CD-ROM etc., sólo para visualización.
Su tamaño en bytes es muy pequeño.
· 100 DPI: Para tamaño carta y oficio buena definición
en pantalla, en impresión es calidad satisfactoria.
· 300 DPI: Recomendada para imágenes de alta calidad
fotográfica e impresión en color y para reconocimiento de
texto en blanco y negro.
4. El tipo de Imagen
Seleccionemos el tipo de imagen:
· Color verdadero (Millones de Colores, 16, 24 y 32 bits)
· 256 colores
· Escala de grises
· Blanco y negro
· Guardar
En esta parte decidiremos el formato JPEG o GIF dependiendo del tipo
de imagen, si es blanco y negro guardamos en GIF, de lo contrario, si está
en tonos de grises o color se guardará en JPEG.
Si la decisión es que la imagen será reconocida como
texto en Acrobat, entonces guardamos en PDF, tomando en cuenta que fue
digitalizada en blanco y negro a través de Acrobat.
· JPEG Joint Photographic Expert Group (Grupo
de expertos fotográficos)
· GIF Graphics Interchange Format (formato de intercambio
de gráficos)
· PDF Portable Document Format (formato de documento
portátil)
1.3 Texto e hipertexto
En un futuro no lejano, todos los textos individuales estarán
conectados electrónicamente formando así metatextos
de un género solo parcialmente imaginable hoy en día.
Desde hace varios años se ha pronosticado el fin del libro
impreso. Se dice que los proyectos de librería virtual lo reducirán
a pieza de museo.
Sin embargo, el libro de papel todavía tiene futuro, debido
a ciertas características que los libros virtuales no tienen. Es
portátil y barato, se puede hojear con facilidad; y es posible leerlo
casi en cualquier sitio y postura.
Hipertexto
“Con hipertexto, me refiero a una escritura no secuencial, a un texto
que bifurca, que permite que el lector elija y que se lea mejor en una
pantalla interactiva. De acuerdo con la noción popular, se trata
de una serie de bloques de texto conectados entre sí por nexos,
que forman diferentes itinerarios para el usuario”5
Se trata de una tecnología de la información cuya principal
característica es su capacidad para emular la organización
asociativa de la memoria humana. La posibilidad de construir una memoria
sin limitaciones ni olvidos confiere un gran potencial a sistemas de éste
tipo, que pueden aplicarse a toda clase de sistemas relacionados con el
procesamiento de información o con el pensamiento. En una labor
tan compleja como ésta hay que tener en cuenta factores sociológicos,
psicológicos, lingüísticos e informáticos, por
lo que tanto su estudio como su desarrollo se convierten en tareas multidisciplinarias
en las que convergen diversas ciencias.
De otra manera, la organización hipertextual permite enlazar
información que esté relacionada, por lo que se puede navegar
a través de un entramado de nodos, de acuerdo con las preferencias
o las necesidades de adquisición de conocimiento que se tengan en
cada momento.
La principal innovación que aporta el hipertexto no es el método
de organización en sí, fiel reflejo de la estructura asociativa
empleada por la mente humana para relacionar conceptos, sino su automatización.
El término hipertexto fue utilizado por primera vez a mediados
de los sesenta por Theodoro H. Nelson para describir la idea de un sistema
que permitiese una escritura y lectura no estrictamente lineales, sino
ajustadas a procesos más próximos al modelo humano, de forma
que al ser conocida a la perfección por los usuarios su utilización
sería más intuitiva. Sin embargo, aunque en teoría
un hipertexto refleja el modelo cognitivo de su autor, en la práctica
no puede demostrarse taxativamente que con ello se facilite la comprensión
del sistema por parte de sus usuarios.
La técnica del Hipertexto se puede utilizar para escribir o
para leer; como herramienta de lectura el autor debe tener en cuenta que
las necesidades particulares de cada lector determinan el estilo que va
a seguir: secuencial (como una novela), navegación (paso aleatorio
de un concepto a otro) o búsqueda (mediante consultas).
La traslación de estos conceptos a la informática debería
haber conducido a la construcción de sistemas hipertextuales integrados
y abiertos, usualmente denominados con el acrónimo inglés
IOH (Integrated Open Hypermedia) capaces de generar y mantener eficientemente
hiperdocumentos (hipertexto totalmente conexo). Pero la realidad dista
mucho de ésta concepción, al estar plagada de sistemas propietarios
incomunicados.
Elementos básicos de un Hipertexto.
Son dos: nodo y enlace.
El nodo. Elemento constitutivo de un hipertexto que contiene una cantidad
discreta de información (texto, imágenes, etc.).
Suelen clasificarse por la forma de visualización en la pantalla:
marco (cantidad fija de espacio en la pantalla) y ventana (toda la pantalla).
A la hora del diseño de los hiperdocumentos hay varios aspectos
que se deben considerar: el tamaño del nodo, el tiempo de recuperación
de la información, su legibilidad y su tangibilidad; las dos primeras
están inversamente relacionadas (nodos grandes suponen un importante
consumo de tiempo hasta que se recuperan lo que puede provocar ansiedad
en el usuario, además de una pérdida de eficiencia; nodos
pequeños implican una excesiva fragmentación de la información
que puede suponer su pérdida de sentido; se aconsejan nodos de cien
a mil palabras siempre dependiendo del sistema). En cuanto a la legibilidad
y tangibilidad, dependen ambos aspectos del diseño físico
que se haga del interfaz (para lo cual hay una serie de guías o
consejos que pueden ayudar); se debería tener en cuenta entre otras
cosas tanto la forma de fragmentar y organizar la información como
la calidad de la presentación final (no se debe olvidar el tipo
y tamaño de la letra, la resolución de las imágenes,
etc. que deben producir nodos muy nítidos y poco densos, pues
la resolución de la pantalla no es la misma que la de la página
de papel, y la actitud del lector ante el monitor es radicalmente distinta
a la que adopta frente a los textos tradicionales)
El nodo. Es una conexión entre dos nodos que proporciona
una forma de seguir las referencias entre un origen y un destino de enlace.
El primero de ellos y más importante son los link de texto o
referencias a otros lugares de Internet o partes del mismo documento. La
manera de representarlos si que varía en función del navegador,
pero en líneas generales todos ellos nos ofrecen suficientes pistas
acerca de lo que es un link y lo que no. Por ejemplo el Netscape y el Internet
Explorer los representa en color azul o violeta y subrayados.
Además de link's en el texto también se pueden incluir
link's en las imágenes. Normalmente se reconoce una imágen
que contiene un link de otra que no lo tiene porque la primera suele tener
un reborde azul, aunque de nuevo esto es opcional y pudiera ser que no
lo tuviese o que este fuese de otro color.
El nodo y el enlace se complementan nos permiten la búsqueda
y recuperación de información en internet.
Modos de acceso a la información Hipertextual
Los dos modos de recuperación de la información más
usuales son:
- Navegación siguiendo los enlaces (es la forma primaria
de acceso).
World Wide Web es sin duda la herramienta más potente e innovadora
de Internet. Además de las características antes descritas:
transmisión de texto, gráficos, sonido y animaciones, podemos
decir que se trata de un sistema de hipertexto a nivel mundial, ya que
tan solo haciendo 'clic' con el ratón sobre un texto o gráfico
situado en la pantalla del ordenador, podemos acceder a información
situada en cualquier servidor del mundo. De esta forma una página
web presentada en pantalla puede contener, por ejemplo, texto procedente
de un servidor español y un dibujo grabado en el ordenador central
de la universidad de California, Los Angeles, (UCLA).
- Búsqueda mediante consultas al servidor
El WWW utiliza el modelo cliente - servidor. Un servidor de WWW es
un programa que sirve documentos en lenguaje específico de WWW,
actualmente el más usado es el HTML (HiperText Markup Language),
aunque existen otros de nueva creación que por su potencia e innovación
prometen sustituir al clásico HTML; como son el JAVA de Sunsoft
y el VRLM de Silicon Grafics. Y un cliente, por su parte, es el programa
que interactúa con el usuario, pide documentos al servidor y los
interpreta para presentarlos por pantalla. Los clientes más utilizados
actualmente son NETSCAPE Navigator y Microsoft EXPLORER. Todos estos cambios
que esta sufriendo el acceso y creación de la información
nos permiten ahora pensar en bibliotecas digitales, las cuales se caracterizaran
por el uso de tecnología aplicada en todos los procesos que en ella
se realizan, en específico para este trabajo optimizar los correspondientes
a la hemeroteca.