本周 GitHub圈选 项目推荐:
• chatgpt-on-wechat(基于大模型的WX聊天机器人)• FIFO-Diffusion(AI视频生成)• AniTalker(语音动画生成器)• VoiceCraft(语音编辑工具)• FarFalle(AI搜索引擎)1、chatgpt-on-wechatchatgpt-on-wechat 是一款基于大模型搭建的聊天机器人,同时支持多平台、多模型,能处理文本、语音和图片,访问操作系统和互联网,支持基于自有知识库进行定制企业智能客服。
特征:• 多端部署:具备多种可选的部署方式,且功能齐全• 基础对话:在私聊和群聊中实现消息的智能回复,支持多轮会话的上下文记忆,涵盖 GPT-3.5、GPT-4、GPT-4o、Claude-3、Gemini、文心一言、XunFeiXH、通义千问、ChatGLM-4、Kimi(月之暗面)。• 语音能力:能够识别语音消息,并通过文字或语音进行回复,支持 azure、baidu、google、openai(whisper/tts)等诸多语音模型。• 图像能力:支持图片生成、图片识别以及图生图(如照片修复),可选用 Dall-E-3、stable diffusion、replicate、midjourney、CogView-3、vision 模型。• 丰富插件:支持个性化的插件拓展,已达成多角色切换、文字冒险、敏感词过滤、聊天记录总结、文档总结与对话、联网搜索等插件。• 知识库:借由上传知识库文件来自定义专属机器人,可充当数字分身、智能客服、私域助手,基于 LinkAI 得以实现。Star:26.3k
项目地址:https://github.com/zhayujie/chatgpt-on-wechat
2、FIFO-DiffusionFIFO-Diffusion 是一款可以生成无限长的连续视频的AI视频生成开源项目,是一种无需训练的基于预训练扩散模型的新型推理技术,可以从文本生成无限长的视频。
虽然它能够生成无限时长的长视频,但还是会存在一定的跳帧情况。不过网上也有大佬们提供有解决方式,就是推荐使用AI插帧来补充画面跳帧弊端。
特点:• 通过迭代进行对角去噪处理,无需训练即可生成无限长的视频。• 通过前向参考机制使帧之间的去噪效果更好,同时引入潜在分区和前瞻去噪以减少训练-推理差距。• 支持生成高质量、长时间的视频,已在多种文本到视频生成基线模型上展示了其有效性。• FIFO-Diffusion 在TextVQA、DocVQA等基准测试中表现优异,超过了一些非开源模型。Star:146
项目地址:https://github.com/jjihwan/FIFO-Diffusion_public
3、AniTalkerAniTalker 是一款通过单张头像即可生成语音动画的AI开源项目,旨在通过身份解耦的面部动作编码技术,生成生动多样的说话面部动画。
借助AniTalker,你可以实现动漫人物、古人、老照片、蒙娜丽莎等头像人物开口说话,也可以借此生成一系列生动的表情包。
Star:989
项目地址:https://github.com/X-LANCE/AniTalker
4、VoiceCraftVoiceCraft 是一款开源的零样本语音编辑和文本转语音工具。
它是一种标记填充神经编解码器语言模型,在包括有声读物、网络视频和播客在内的自然数据上的语音编辑和零样