在上一篇学习日志中,我介绍了GSV的API食用方法,本篇我们研究如何将LLM与GSV对接。 这乍一听很简单,只需要将大模型返回的结果简单处理之后交由GSV处理之后就行了……对吗?思路没问题,确实是可行的,不过由于GSV处理文字的时间过长,这导致实际延迟时间过长,体验极差。 我们真正想要的效果是这样的:让GSV处理完一部分音频后就立即播放,剩下的边播…
最近换了电脑,终于可以试试GSV和RVC了。在简单体验一番后,萌生了将其与LLM结合起来的想法。 (毕竟谁不想让AI用自己喜爱的虚拟角色的声音说话呢 实现方法也简单,官方已经提供了API,只需要把LLM输出的话用它处理一遍就好了。(当然,考虑到TTS需要消耗一定时间,还需要对句子进行拆分,分段进行流式输出。) API 以v2版本为例,要想使用GSV…