• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

AI虚拟点读机,手势识别+OCR+语音TTS

AI虚拟点读机,手势识别+OCR+语音TTS
AITOP100
2023-07-06 09:04:58

哈喽,大家好。

最近在研究AIGC方面的内容,好久没有更新公众号内容。

今天给大家分享的是用计算机视觉技术做一个虚拟点读机。

图片 图片

技术上很简单,只不过工程实现先有些细节需要注意。

1. 思路

  1. OpenCV读取视频流,识别食指坐标
  2. 用两个食指坐标作为顶点,画一个矩形框
  3. 截取矩形框,送入OCR模型识别文本
  4. 用语音合成引擎TTS将文本合成语音
  5. 调用音频播放模块,播放声音

2. 细节处理

OpenCV读取视频流、mediapipe识别食指坐标,之前的分享的文章都有代码,这里就不贴了,重点说下需要处理的细节。

细节1. 检测到两个食指时,需要设置一个时间间隔,这样可以给你预留一些时间来调整矩形框

        if self.point_start_time is None:    # 首次同时检测到左右食指    self.point_start_time = time.time()else:    time_del = time.time() - self.point_start_time    if time_del > 3:      

图片 图片

细节2. 设置标记,防止重复识别

矩形框一旦确定,如果没有标记,每一帧都会送入OCR模型识别、然后播放声音,这样程序就会卡死。

需要设置标记,保证任何时刻只处理一个矩形框。

        if not self.is_processing:  # 开始识别  self.is_processing = True  # ocr识别选定的图片  t, b = min(p0_y, p1_y), max(p0_y, p1_y)  l, r = min(p0_x, p1_x), max(p0_x, p1_x)  selected_frame = frame[t:b, l:r]  # ocr识别文字  text = self.ocr_rec(selected_frame)  # 文本转语音  voice = self.tts.get_speech(text)  # 播放语音  self.player.play(voice, False, notallow=lambda: self.stop_play())  self.pc_time = time.time()      

细节3. 多线程处理

播放音频的时候需要用多线程播放,不然主程序会卡死,知道音频播放完成才能继续运行。

如果识别的内容很多,播放时间长,程序就会一直卡着很长时间没有反应。

3. 其他技术

关于OCR和TTS技术之前的文章都有介绍过。

OCR直接用Paddle框架和预训练好的模型就行。

TTS如果是Mac可以使用系统自带的,不需要安装其他程序。如果是Windows可以使用微软的edge-tts。edge-tts效果比大部分tts强太多。

也可以用d-id、wav2lip或者sadtalker实现唇形合成,让静态图片朗读文本内容。

0
0
原文链接:https://www.51cto.com/article/759706.html
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 25年8月初更新的7场AI大赛,奖金高达11.15万!

  • 每日AI资讯-2025年08月01日

  • Kimi K2高速版来了kimi-k2-turbo-preview,速度直接从“自行车”飙到“高铁”

  • 阿里Wan2.2正式发布:开源AI视频生成模型全面超越Sora,支持4K高清视频制作

  • Producer AI正式上线:以FUZZ-2.0为核心驱动的对话式AI音乐创作工具

热点资讯

豆包AI生图技术深度解析:引领中文图像生成新突破

8天前
豆包AI生图技术深度解析:引领中文图像生成新突破

YouTube Shorts大动作!AI特效来袭,照片秒变精彩视频

9天前
YouTube Shorts大动作!AI特效来袭,照片秒变精彩视频

阿里巴巴首款夸克AI眼镜惊艳亮相2025世界人工智能大会(WAIC)

6天前
阿里巴巴首款夸克AI眼镜惊艳亮相2025世界人工智能大会(WAIC)

创意加速!可灵AI"灵动画布"发布,多图参考功能迎来重大突破

5天前
创意加速!可灵AI"灵动画布"发布,多图参考功能迎来重大突破

豆包理解图片的能力升级了:深度思考模式重新定义AI视觉理解

4天前
豆包理解图片的能力升级了:深度思考模式重新定义AI视觉理解
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有