CAPÍTULO I

I . Digitalización de documentos hemerográficos
 

1.1 Definición de hemeroteca.


Las hemerotecas brillan por su número reducido y por el desconocimiento general de sus actividades por parte del público e incluso de la mayoría de los profesionales de la información. El término que define a la hemeroteca es reunir, conservar y difundir colecciones de periódicos y revistas, sin embargo no aparece en la gran mayoría de los diccionarios profesionales, como el diccionario Lorousse, entre otros. Por fortuna, no siempre es un término olvidado y así, Domingo Buonocuore dice en su Diccionario de bibliotecología sobre el término hemeroteca  “(del gr. hemera, día, y theke, caja, depósito). Este vocablo ha sido reconocido por el diccionario académico para significar el local donde se guardan y coleccionan periódicos, diarios y revistas”.
El término fue propuesto por el periodista y bibliotecario parisiense Enrique Martín, conservador de la Biblioteca del Arsenal de París, en el Congreso Internacional de Bibliotecas, realizado en esa capital en 1900. Según el Larousse en su XX ed., la palabra está mal formada y en su sentido estricto debería ser eferoteca, del griego ephemeris, función de cada día, y theeke, caja o armario.
Por su parte, tanto el diccionario de la Real Academia de la Lengua Española en su vigésima primera edición como el diccionario ideológico de Julio Casares coinciden en definir hemeroteca como una biblioteca donde principalmente se guardan y sirven diarios y otras publicaciones periódicas. Juan Iguíniz en su Léxico bibliográfico, además de los conceptos anteriormente expuestos define a la  hemeroteca "Neologismo que designa las colecciones de periódicos y el local destinado a su conservación".
En estas definiciones se puede ver que, en términos generales, se trata a la hemeroteca bien como una parte o sección de una biblioteca o bien como una biblioteca especializada dedicada a conservar y difundir publicaciones periódicas. Para efectos de este trabajo  son aplicables estas últimas definiciones.
1.2. Digitalización de documentos
La digitalización de textos consiste en hacer el reconocimiento óptico de los caracteres de un texto cualquiera a fin de guardarlo posteriormente en un documento de texto.
“El escáner es un dispositivo que permite digitalizar imágenes, es decir, convertir imágenes y textos escritos en datos comprensibles para el ordenador”.3
El escáner ha sido desde hace algún tiempo una herramienta esencial para tiendas de fotografía y video, para empresas de publicidad y en general para tareas de documentación.
Pero gracias al escáner y a los programas OCR (Optical Character Recognition - Reconocimineto óptico de caracteres), normalmente incluidos con el propio escáner, podemos no sólo copiar, sino también editar y posteriormente modificar con nuestro procesador de texto preferido un artículo digitalizado de una revista, enciclopedia, folleto, periódico,  etc.
“Los escáner tienen una barra de luz que ilumina la superficie a escánear o digitalizar (ambos términos se utilizarán indistintamente a partir de ahora). Esta barra de luz contiene un número determinado de CCD (Charge-Coupled Devices - dispositivos de acoplamiento de carga, o en palabras más sencillas, circuitos integrados sensibles a la luz) que detectan la cantidad de luz emitida por la barra que es reflejada por la superficie u objeto digitalizado y la convierte a formato analógico”. 4

Proceso de digitalización de documentos e imágenes
En este punto se explica el proceso de digitalización de documentos e imágenes de forma muy sencilla, como una primera etapa se trabajará sobre documentos con tamaño máximo A4, siendo éste el tamaño de escáner más común.
Existen muchas marcas y tipos de escáner, los más recomendados son: HP, EPSON, MICROTEK, AGFA y UMAX. Tomando en cuenta que no todos cumplen los requisitos para todos los tipos de materiales (fotos, libros, revistas, diapositivas, negativos, etc.)
Es importante contar el software Acrobat ya que proporciona diversos medios para convertir documentos al formato de documento portable (PDF), sirve para convertir documentos sencillos, como los creados en aplicaciones de proceso de textos u hojas de cálculo. Acrobat Distiller permite convertir documentos más complejos, como los creados en aplicaciones de dibujo, autoedición o fotoedición.
Digitalización de documentos
Es muy importante saber que un texto digitalizado es tomado de una imagen de tipo blanco y negro, esto es, antes de que sea texto editado es una imagen. Los requisitos para reconocimiento de texto son: imagen tipo blanco y negro y una resolución de 200 a 600 pixeles por pulgada (PPI).
Antes de comenzar a digitalizar y reconocer texto se debe analizar el material propuesto para no perder tiempo y esfuerzo, en otras palabras, debe asegurase que tanto la letra como su tipografía cumplen con las características para reconocerlas electrónicamente. Ejemplo: si es un documento antiguo y la letra se encuentra cortada o muy tenue, entonces la dejamos como imagen y no como texto editado. Sin embargo, si el documento es antiguo pero su letra es clara y la tipografía es estándar entonces tratamos de reconocerla aunque tenga algunos errores.
 

Digitalización de páginas a partir de documentos en papel
Puede utilizar el comando Acrobat Scan para ejecutar el escáner desde Acrobat. Antes de comenzar la digitalización compruebe que el escáner esté correctamente instalado y que funciona por separado de Acrobat. Siga las instrucciones del escáner y compruebe los procedimientos para garantizar una correcta configuración. Acrobat es compatible con los controladores de escáner TWAIN de tipo normalizado, que son compatibles con prácticamente todos los escáner.
Pasos para digitalizar páginas a partir de un documento en papel:
1.- Inicie el escáner y coloque en él la primera página.
2.- En Acrobat, elija Archivo > Importar > Digitalizar.
3.- Elija el escáner y un formato de página en los menús emergentes. El menú emergente "Dispositivo" muestra todos los controladores que hay instalados en el sistema.
4.- Seleccione si desea añadir las páginas digitalizadas al final del archivo PDF actual o colocarlas en un archivo nuevo.
5.- Haga clic en Digitalizar.
6.- Configure las opciones de digitalización en la interfaz del escáner; para un buen reconocimiento de texto la resolución deberá ser de 200 a 400 puntos por pulgada (DPI) dependiendo de la calidad y tamaño de la letra, obviamente el tipo de imagen será en blanco y negro.
 Algunos escáner abren un cuadro de diálogo con opciones, otros muestran una barra de menús que permite acceder a los comandos de configuración de opciones. En la mayoría de los casos, también deberá hacer clic en el botón Digitalizar o enviar la página al escáner de alguna otra forma.

Digitalización de Imágenes
Antes de comenzar a digitalizar se debe analizar el material que quedará como imagen, esto es que tomaremos decisiones de cómo van a quedar las imágenes ya en la computadora. Por ejemplo: Si tenemos una serie de revistas médicas que contiene texto, imágenes en tonos de grises, imágenes en color, gráficas en color y cuadros de comparación en blanco y negro, se tendrá que decidir si todas las imágenes quedarán en color, tonos de grises o en diferentes tipos. Hay instituciones que manejan una gran cantidad de imágenes y por ello deciden digitalizar a tonos de grises y con una resolución de 75 a 100 DPI por su menor almacenamiento en disco, un ejemplo de esto son las gráficas de producción donde lo más importante es la información cuantificable. Pero si el color es una característica importante como en el caso de las imágenes del satélite que ayudan pronosticar el clima, no se puede cambiar a tonos de grises, puesto que el color es el indicador más importante, además se digitalizan con una resolución de 300 a 600 DPI.
Pasos para digitalizar imágenes a partir de una, fotografía, dibujo, etc.
El proceso de digitalización es lo mismo en cualquier escáner, lo que cambia son las opciones del software y la diferencia más común es el idioma, la mayoría de los softwares de escáner ofrecen las mismas opciones para digitalizar, las cuales son:
Explorar - Importar Imagen
Éste es el primer paso para capturar una imagen, aquí el software nos muestra la ventana de captura, la cual contiene un área blanca que representa a escala la cama del escáner y están activadas las siguientes opciones.
1.  Previsualizar
Ejecutando esta opción obtenemos una imagen previa de lo que se encuentra dentro del escáner, muestra una imagen sin definición o un bosquejo de la misma, nos da una idea de lo que vamos a digitalizar.
2.  Selección del área de Captura
En el área blanca que representa la cama plana del escáner hay un recuadro ajustable a lo ancho y a lo alto, con éste podemos seleccionar una parte o todo el documento.
3.  Resolución de Salida:
Seleccionemos una cantidad de puntos por pulgada desde 75 DPI hasta 300 que es lo óptimo para el ojo humano.
· 75 DPI: Resolución al tamaño real del documento, se usa para montarlas en la WEB, CD-ROM etc., sólo para visualización. Su tamaño en bytes es muy pequeño.
· 100 DPI: Para tamaño carta y oficio buena definición en pantalla, en impresión es calidad satisfactoria.
· 300 DPI: Recomendada para imágenes de alta calidad fotográfica e impresión en color y para reconocimiento de texto en blanco y negro.
4.  El tipo de Imagen
Seleccionemos el tipo de imagen:
· Color verdadero (Millones de Colores, 16, 24 y 32 bits)
· 256 colores
· Escala de grises
· Blanco y negro
· Guardar
En esta parte decidiremos el formato JPEG o GIF dependiendo del tipo de imagen, si es blanco y negro guardamos en GIF, de lo contrario, si está en tonos de grises o color se guardará en JPEG.
Si la decisión es que la imagen será reconocida como texto en Acrobat, entonces guardamos en PDF, tomando en cuenta que fue digitalizada en blanco y negro a través de Acrobat.
· JPEG  Joint  Photographic Expert Group  (Grupo de expertos fotográficos)
· GIF   Graphics Interchange Format (formato de intercambio de gráficos)
· PDF   Portable Document Format (formato de documento portátil)
1.3  Texto e hipertexto

En un futuro no lejano, todos los textos individuales estarán conectados electrónicamente formando así metatextos  de un género solo parcialmente imaginable hoy en día.
 Desde hace varios años se ha pronosticado el fin del libro impreso. Se dice que los proyectos de librería virtual lo reducirán a pieza de museo.
Sin embargo, el libro de papel todavía tiene futuro, debido a ciertas características que los libros virtuales no tienen. Es portátil y barato, se puede hojear con facilidad; y es posible leerlo casi en cualquier sitio y postura.
Hipertexto
“Con hipertexto, me refiero a una escritura no secuencial, a un texto que bifurca, que permite que el lector elija y que se lea mejor en una pantalla interactiva. De acuerdo con la noción popular, se trata de una serie de bloques de texto conectados entre sí por nexos, que forman diferentes itinerarios para el usuario”5
Se trata de una tecnología de la información cuya principal característica es su capacidad para emular la organización asociativa de la memoria humana. La posibilidad de construir una memoria sin limitaciones ni olvidos confiere un gran potencial a sistemas de éste tipo, que pueden aplicarse a toda clase de sistemas relacionados con el procesamiento de información o con el pensamiento. En una labor tan compleja como ésta hay que tener en cuenta factores sociológicos, psicológicos, lingüísticos e informáticos, por lo que tanto su estudio como su desarrollo se convierten en tareas multidisciplinarias en las que convergen diversas ciencias.
De otra manera, la organización hipertextual permite enlazar información que esté relacionada, por lo que se puede navegar a través de un entramado de nodos, de acuerdo con las preferencias o las necesidades de adquisición de conocimiento que se tengan en cada momento.
La principal innovación que aporta el hipertexto no es el método de organización en sí, fiel reflejo de la estructura asociativa empleada por la mente humana para relacionar conceptos, sino su automatización.
El término hipertexto fue utilizado por primera vez a mediados de los sesenta por Theodoro H. Nelson para describir la idea de un sistema que permitiese una escritura y lectura no estrictamente lineales, sino ajustadas a procesos más próximos al modelo humano, de forma que al ser conocida a la perfección por los usuarios su utilización sería más intuitiva. Sin embargo, aunque en teoría un hipertexto refleja el modelo cognitivo de su autor, en la práctica no puede demostrarse taxativamente que con ello se facilite la comprensión del sistema por parte de sus usuarios.
La técnica del Hipertexto se puede utilizar para escribir o para leer; como herramienta de lectura el autor debe tener en cuenta que las necesidades particulares de cada lector determinan el estilo que va a seguir: secuencial (como una novela), navegación (paso aleatorio de un concepto a otro) o búsqueda (mediante consultas).
La traslación de estos conceptos a la informática debería haber conducido a la construcción de sistemas hipertextuales integrados y abiertos, usualmente denominados con el acrónimo inglés IOH (Integrated Open Hypermedia) capaces de generar y mantener eficientemente hiperdocumentos (hipertexto totalmente conexo). Pero la realidad dista mucho de ésta concepción, al estar plagada de sistemas propietarios incomunicados.
Elementos básicos de un Hipertexto.
Son dos: nodo y enlace.
El nodo. Elemento constitutivo de un hipertexto que contiene una cantidad discreta de información (texto, imágenes, etc.).
Suelen clasificarse por la forma de visualización en la pantalla: marco (cantidad fija de espacio en la pantalla) y ventana (toda la pantalla).
A la hora del diseño de los hiperdocumentos hay varios aspectos que se deben considerar: el tamaño del nodo, el tiempo de recuperación de la información, su legibilidad y su tangibilidad; las dos primeras están inversamente relacionadas (nodos grandes suponen un importante consumo de tiempo hasta que se recuperan lo que puede provocar ansiedad en el usuario, además de una pérdida de eficiencia; nodos pequeños implican una excesiva fragmentación de la información que puede suponer su pérdida de sentido; se aconsejan nodos de cien a mil palabras siempre dependiendo del sistema). En cuanto a la legibilidad y tangibilidad, dependen ambos aspectos del diseño físico que se haga del interfaz (para lo cual hay una serie de guías o consejos que pueden ayudar); se debería tener en cuenta entre otras cosas tanto la forma de fragmentar y organizar la información como la calidad de la presentación final (no se debe olvidar el tipo y tamaño de la letra, la resolución de las imágenes, etc.  que deben producir nodos muy nítidos y poco densos, pues la resolución de la pantalla no es la misma que la de la página de papel, y la actitud del lector ante el monitor es radicalmente distinta a la que adopta frente a los textos tradicionales)
El nodo.  Es una conexión entre dos nodos que proporciona una forma de seguir las referencias entre un origen y un destino de enlace.
El primero de ellos y más importante son los link de texto o referencias a otros lugares de Internet o partes del mismo documento. La manera de representarlos si que varía en función del navegador, pero en líneas generales todos ellos nos ofrecen suficientes pistas acerca de lo que es un link y lo que no. Por ejemplo el Netscape y el Internet Explorer los representa en color azul o violeta y subrayados.
Además de link's en el texto también se pueden incluir link's en las imágenes. Normalmente se reconoce una imágen que contiene un link de otra que no lo tiene porque la primera suele tener un reborde azul, aunque de nuevo esto es opcional y pudiera ser que no lo tuviese o que este fuese de otro color.
El nodo y el enlace se complementan nos permiten la búsqueda y recuperación de información en internet.
Modos de acceso a la información Hipertextual
Los dos modos de recuperación de la información más usuales son:
-  Navegación siguiendo los enlaces (es la forma primaria de acceso).
World Wide Web es sin duda la herramienta más potente e innovadora de Internet. Además de las características antes descritas: transmisión de texto, gráficos, sonido y animaciones, podemos decir que se trata de un sistema de hipertexto a nivel mundial, ya que tan solo haciendo 'clic' con el ratón sobre un texto o gráfico situado en la pantalla del ordenador, podemos acceder a información situada en cualquier servidor del mundo. De esta forma una página web presentada en pantalla puede contener, por ejemplo, texto procedente de un servidor español y un dibujo grabado en el ordenador central de la universidad de California, Los Angeles, (UCLA).
-  Búsqueda mediante consultas al servidor
El WWW utiliza el modelo cliente - servidor. Un servidor de WWW es un programa que sirve documentos en lenguaje específico de WWW, actualmente el más usado es el HTML (HiperText Markup Language), aunque existen otros de nueva creación que por su potencia e innovación prometen sustituir al clásico HTML; como son el JAVA de Sunsoft y el VRLM de Silicon Grafics. Y un cliente, por su parte, es el programa que interactúa con el usuario, pide documentos al servidor y los interpreta para presentarlos por pantalla. Los clientes más utilizados actualmente son NETSCAPE Navigator y Microsoft EXPLORER. Todos estos cambios que esta sufriendo el acceso y creación de la información nos permiten ahora pensar en bibliotecas digitales, las cuales se caracterizaran por el uso de tecnología aplicada en todos los procesos que en ella se realizan, en específico para este trabajo optimizar los correspondientes a la hemeroteca.