分类: AI

  • Llama-3-70B:突破性未审查模型

    在人工智能领域,模型的性能和应用范围不断拓展。最近,由Exllama社区的一位成员进行的一次微调,使得Llama-3-70B模型在未审查的通用智能排行榜上名列前茅。这一排行榜是一个封闭的基准,无法通过作弊来提高分数。这一成就不仅让人瞩目,也为未来的AI发展提供了新的方向。

    新模型的诞生

    Llama-3-70B模型的微调由Exllama社区的一名成员完成。这次微调不仅提升了模型的性能,还使其在未审查的通用智能排行榜上夺得了第一名。这一排行榜由其创建者严格维护,确保其真实性和公平性。

    排行榜创建者表示:“大多数我测试的模型在默认模板下表现良好,我猜测是llama.cpp检测到了这个模板。然而,turboderp/Cat-Llama-3-70B-instruct在使用提供的模板时,得分有了显著提升。它的知识量相当惊人,并且在使用聊天模板时几乎没有受到审查。”

    模型的具体表现

    Llama-3-70B模型在使用聊天模板时表现尤为出色。它不仅展示了广泛的知识,还在对话过程中表现出了一种“未审查”的特质。未审查的特质意味着模型能够更加自由地生成内容,而不受严格的限制。这种特性使得模型在实际应用中更加灵活和实用。

    为了充分发挥Llama-3-70B模型的潜力,用户需要使用ChatML格式来运行该模型。此外,系统提示通常使用“Below is a”语句效果更佳,而非“You are”语句。例如,一个好的系统提示可以是:“Below is a conversation between an AI entity and a human.”

    使用指南

    如果您有兴趣探索和使用Llama-3-70B模型,可以在以下链接找到完整精度的模型:

    在运行模型时,请务必使用ChatML格式,并且在系统提示中使用“Below is a”语句。这将确保模型在对话中的最佳表现。

    未来展望

    Llama-3-70B模型的成功不仅是技术上的突破,也是人工智能应用领域的一次重要进步。它展示了通过微调和优化,可以显著提升模型性能,并使其在实际应用中更加灵活和高效。未来,我们可以期待更多类似的创新,为我们的生活带来更多便利和可能性。


    参考文献:

    • Exllama社区成员微调的Llama-3-70B模型
    • 未审查的通用智能排行榜创建者的评论
  • ChatTTS:专为对话场景设计的文本转语音模型

    在人工智能领域中,文本转语音(TTS)技术一直是备受关注的研究方向。今天,我们要介绍的是ChatTTS,一个专为对话场景设计的文本转语音模型。ChatTTS不仅支持中文和英文,还能够在多种应用中展现出色的表现。

    ChatTTS的特点

    对话式TTS

    ChatTTS针对对话任务进行了优化,能够生成自然流畅的语音,并支持多说话人。这使得它在模拟人类对话时,更加真实和生动。

    细粒度控制

    该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。这使得生成的语音更加丰富和多样,能够更好地传达说话者的情感和意图。

    更好的韵律

    ChatTTS在韵律方面超越了大部分开源的TTS模型。它能够生成具有自然韵律的语音,使得听起来更加舒适和真实。同时,ChatTTS还提供预训练模型,支持进一步的研究和应用。

    使用方法

    基本用法

    以下是ChatTTS的基本用法示例:

    import ChatTTS
    from IPython.display import Audio
    
    chat = ChatTTS.Chat()
    chat.load_models()
    
    texts = ["<PUT YOUR TEXT HERE>",]
    
    wavs = chat.infer(texts, use_decoder=True)
    Audio(wavs[0], rate=24_000, autoplay=True)

    进阶用法

    如果需要更高级的控制,可以使用以下代码:

    import torch
    
    # 采样一个说话人
    std, mean = torch.load('ChatTTS/asset/spk_stat.pt').chunk(2)
    rand_spk = torch.randn(768) * std + mean
    
    params_infer_code = {
      'spk_emb': rand_spk,
      'temperature': .3,
      'top_P': 0.7,
      'top_K': 20,
    }
    
    params_refine_text = {
      'prompt': '[oral_2][laugh_0][break_6]'
    }
    
    wav = chat.infer("<PUT YOUR TEXT HERE>", params_refine_text=params_refine_text, params_infer_code=params_infer_code)

    实际应用案例

    智能客服系统

    ChatTTS可以在智能客服系统中发挥重要作用。通过其自然流畅的语音生成能力,能够提供更加亲切和人性化的客服服务,提升客户满意度。

    教育领域

    在教育领域,ChatTTS可以帮助教师制作生动的教学语音材料。学生可以通过听取这些语音材料,更加直观地理解和掌握知识。

    娱乐领域

    在游戏和影视制作中,ChatTTS可以用于生成角色对话。其自然的语音和情感表达能力,可以使角色更加生动,提升用户的沉浸感。

    未来展望

    ChatTTS展示了语音生成技术的巨大潜力。随着技术的不断进步,未来有望在更多的应用场景中发光发热,带给我们更多的惊喜和便利。

    免责声明

    本文件中的信息仅供学术交流使用,目的在于教育和研究,不得用于任何商业或法律目的。作者不保证信息的准确性、完整性或可靠性。

    计划路线

    • [x] 开源4w小时基础模型和spk_stats文件
    • [ ] 开源VQ encoder和Lora训练代码
    • [ ] 在非refine text情况下, 流式生成音频
    • [ ] 开源多情感可控的4w小时版本
    • [ ] ChatTTS.cpp maybe? (欢迎社区PR或独立的新repo)

    常见问题

    连不上HuggingFace

    请使用modelscope的版本,并设置cache的位置。

    我要多少显存?Infer的速度是怎么样的?

    对于30秒的音频,至少需要4G的显存。对于4090D. ��1秒生成约7个字所对应的音频,RTF约0.65。

    模型稳定性似乎不够好,会出现其他说话人或音质很差的现象。

    这是自回归模型通常都会出现的问题。说话人可能会在中间变化,可能会采样到音质非常差的结果,这通常难以避免。可以多采样几次来找到合适的结果。

    除了笑声还能控制什么?还能控制其他情感吗?

    在现在放出的模型版本中,只有[laugh]和[uv_break]、[lbreak]作为字级别的控制单元。在未来的版本中我们可能会开源其他情感控制的版本。

    致谢

    • barkXTTSv2valle展示了自回归任务用于TTS任务的可能性。
    • fish-speech一个优秀的自回归TTS模型,揭示了GVQ用于LLM任务的可能性。
    • vocos作为模型中的vocoder。

    特别致谢


    ChatTTS凭借其先进的技术和广泛的应用前景,正在逐步改变我们的生活方式。从智能客服到教育,再到娱乐,ChatTTS的应用无处不在。期待随着技术的进一步发展,ChatTTS能为我们带来更多惊喜和便利。


    参考文献:

    1. ChatTTS GitHub
人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 知差(chai)网
快取状态: No
内存使用量: 9.0963 MB
资料库查询次数: 2
页面产生时间: 0.240 (秒)