任务一 采集文本文字
任务概述
采集文本文字主要有以下几种方式:键盘输入、文字识别、语音识别以及网络下载等,本任务便逐一讲解这些方法。
知识链接
数字媒体素材中的文字实际上有两种:一种是文本文字;另一种是非文本文字。用文本文件格式保存的文字素材便是文本文字,常见的文本文件格式有txt、rtf、doc及docx等。文本文件又分为纯文本文件和格式化文本文件两种类型。
纯文本一般只有文本内容,没有应用字体、颜色等文本效果。常见的纯文本由Windows自带的记事本创建,如图3-1-1所示。
格式化文本既包含文本内容信息,又包含文字效果信息,常见的格式化文本文件由Word创建,如图3-1-2所示。
图3-1-1
图3-1-2
文字一般具有以下几点特性:
● 字的格式(Style):字体的格式有下列几种:普通、粗体、斜体、底线、轮廓和阴影等。
● 字的定位(Align):字的定位主要有4种:左对齐、居中、右对齐和两端对齐。
● 字体(Font)的选择:由于Windows安装的字库不同,字体选项会有些差别,常用的有宋体、楷体、黑体、隶书、仿宋等。还可通过安装字库扩充更多的字体,如方正舒体、方正姚体、华文宋体、华文隶书等。
● 字的大小(Size):字的大小一般是以字号和磅(Point)为单位,磅值越大,字越大。字体文件由TTF或FON等扩展名构成,TrueType字体(TTF文件)是Windows中的一项重要技术,支持无级放缩,美观,实用。常用的标志装饰也可以字体形式出现,Windows系统中的Webdings字体就不是单纯的字母样式。
● 字的颜色:可以向文字指定调色板中的任何一种颜色,以使画面更加漂亮。
需强调的是,文字的技术处理固然很重要,但是文字资料的准确性、完整性和权威性更为重要。因此,在编写文字脚本时,一定要文字准确,确保质量。
1. 使用设备录入文本文件
录入文字就是在具有文字功能的软件中,通过某种输入方式,将头脑中的思想或者纸张上的文稿输入计算机,生成数字化文字。
键盘录入:这是最常用的方式,如图3-1-3所示。
图3-1-3
手写录入:需要配置手写板和相应的软件,如图3-1-4所示。
图3-1-4
语音录入:需要配置麦克风和相应的软件。
在各种具有文字功能的软件中都可以进行文字录入,但是由于各种软件性质的不同,录入的目的和所得到的结果则不尽相同,如图3-1-5所示。
图3-1-5
2. 使用设备扫描识别文本文件
如果原始素材是印制品上的文稿,并且字体比较规范,可以通过扫描识别将其转变成数字化文字,从而免除了录入文字的操作。扫描文字的前提是,安装扫描仪及其驱动程序,并安装文字识别软件OCR(光学符号识别)。具体操作步骤如下:
步骤1 打开赛酷文档秘书,选择“文件→选择扫描仪”命令,在弹出的“选择来源”对话框中选择计算机上连接的扫描仪型号,如图3-1-6所示。
步骤2 选定扫描仪后会弹出扫描向导,将要扫描的书放到扫描中,可单击“预览”按钮观看效果,如图3-1-7所示。
图3-1-6
图3-1-7
步骤3 预览确认无误后,单击“扫描”按钮开始扫描,如图3-1-8所示。
图3-1-8
步骤4 扫描完成后可以对扫描图片进行调整,框选要识别的文字部分,软件会将识别结果显示到下面的框中,如图3-1-9所示。
图3-1-9
步骤5 识别完成后,选择“文件→导出结果”命令,在弹出的“另存为”对话框中输入文件名称,选择好文件的保存位置和保存格式,如图3-1-10所示。
图3-1-10
步骤6 单击“保存”按钮后,识别后的文本文件就已保存了,打开后的效果如图3-1-11所示。
图3-1-11
知识链接
扫描仪(Scanner)是一种计算机输入设备,它可将各种图片、图纸等资料扫描输入计算机中,转换成数字化图像数据保存和使用,如图3-1-12所示。配备专门的图像处理软件,计算机系统就可以进行图文档案管理、图文排版、电脑广告创意、光学符号识别(OCR)、工程图纸扫描录入、电脑传真和复印等。
图3-1-12
扫描仪内部基本组成部件是光源、光学透镜、感光元件,还有一个或多个的模拟—数字转换电路。从最基本的原理讲,扫描仪是把模拟数据转化为数字数据。感光元件一般是电荷耦合器(CCD)排列成横行,电荷耦合器里的每一个单元对应着一行里的一个像素。在扫描一副图像的时候,光源照射到图像反射回来,根据稿件不同地方亮暗程度的不同,形成强弱不等的反射光线,反射光线穿过透镜聚焦在镜头另一端的感光元件CCD上,CCD将光学信号转换为相应的电信号,这些信号最终通过A/D转换器转化为计算机所能识别的数字信号,然后经不同的接口,EPP,USB或SCSI输送到计算机。整个扫描过程涉及光学、机械、电子等不同方面,任何一个部件的设计都会影响到最终的数字化结果。不同级别的扫描仪的构造基本一样,但所使用的部件及技术却大不相同。
文本扫描识别一般有以下几个步骤:
步骤1 扫描文稿,取得文稿图像。
步骤2 通过文字识别软件,对以上取得的文稿图像进行文字识别,生成并自动保存为文本文件。
步骤3 对识别取得的文本进行修改,并保存为最终文本文件。根据文稿图像的清晰程度和识别软件的识别能力,识别取得的文本中通常会有不同程度的错误。对照原稿进行修改后,才能保存为最终文本文件。
图3-1-13
3. 使用智能手机扫描识别文本文件
只需要给智能手机安装上扫描识别的应用软件,便能使用计算机外接扫描仪,然后通过OCR软件来实现扫描识别功能,整个过程非常方便快捷,并且文本的识别率也非常高。
步骤1 使用腾讯应用助手搜索并下载“云脉(思根)文档识别”应用,安装到智能手机里,如图3-1-14所示。
图3-1-14
步骤2 安装好“云脉(思根)文档识别”应用后,启动该应用,选择“拍照识别—手动”框选后识别,如图3-1-15所示。
图3-1-15
步骤3 将手机摄像头对准要识别的文字部分,手机屏幕上的拍照按钮进行拍照,如图3-1-16所示。
图3-1-16
步骤4 手动框选要进行文字识别的部分,这样可以提高识别率,如图3-1-17所示。
图3-1-17
步骤5 单击手机屏幕上的“识别”按钮后开始识别,如图3-1-18所示。
图3-1-18
步骤6 识别后的文本效果如图3-1-19所示。
图3-1-19
步骤7 为了将该文本和计算机共享,可以点击“发送”按钮后选择笔记,在计算机上安装Evernote 程序的客户端后就可以和手机进行云同步了,如图3-1-20所示。
图3-1-20
步骤8 文本识别的最终效果如图3-1-21所示。
图3-1-21
练习与思考
(1)分别用记事本、Word和Photoshop录入一段文字,并用这些软件自带的文字设置工具对文字进行设置。
(2)翻到本书的任意一页,使用扫描仪和OCR软件对页面上的文字进行扫描识别。
(3)在手机上下载一个语音识别的软件,安装使用一下,体验其功能。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。