自然语言处理-词嵌入 (Word Embeddings)

news/2025/2/4 1:52:10 标签: 自然语言处理, 人工智能

 人工智能例子汇总:AI常见的算法和例子-CSDN博客 

词嵌入(Word Embedding)是一种将单词或短语映射到高维向量空间的技术,使其能够以数学方式表示单词之间的关系。词嵌入能够捕捉语义信息,使得相似的词在向量空间中具有相近的表示。

 常见词嵌入方法

  1. 基于矩阵分解的方法

    • Latent Semantic Analysis (LSA)
    • Latent Dirichlet Allocation (LDA)
    • 非负矩阵分解 (NMF)
  2. 基于神经网络的方法

    • Word2Vec(Google 提出)
      • CBOW(Continuous Bag of Words):通过上下文预测目标词
      • Skip-gram:通过目标词预测上下文
    • GloVe(Stanford 提出)
      • 结合全局共现矩阵局部窗口信息,优化词向量质量
    • FastText(Facebook 提出)
      • 采用子词(Subword)表示,能更好处理未登录词(OOV, Out of Vocabulary)
  3. 基于 Transformer 预训练模型的方法

    • ELMo(Embeddings from Language Models)
    • BERT(Bidirectional Encoder Representations from Transformers)
    • GPT(Generative Pre-trained Transformer)
    • T5(Text-To-Text Transfer Transformer)

http://www.niftyadmin.cn/n/5841162.html

相关文章

踏入编程世界的第一个博客

我,一个双非一本大一新生,普通的不能再普通了,面对宏伟庞大的计算机世界仍显得举手无措,我自以为自身仍有些许骨气,不想普普通通,甚是浑浑噩噩的度过四年大学,经历了高考的打击,双非…

Hot100之图论

200岛屿数量 题目 思路解析 把访问过的格子插上棋子 思想是先污染再治理,我们有一个inArea()函数,是判断是否出界了 我们先dfs()放各个方向遍历,然后我们再把这个位置标为0 我们岛屿是连着…

Linux环境下的Java项目部署技巧:环境安装

安装 JDK: 第上传 jdk 压缩安装包到服务器 将压缩安装包解压缩: tar -xvf jdk-8uXXX-linux-x64.tar.gz 配置环境变量: 编辑 /etc/profile 文件,在文件末尾添加以下内容: export JAVA_HOME/path/to/jdk //JAVA_HOME…

51单片机 01 LED

一、点亮一个LED 在STC-ISP中单片机型号选择 STC89C52RC/LE52RC;如果没有找到hex文件(在objects文件夹下),在keil中options for target-output- 勾选 create hex file。 如果要修改编程 :重新编译-下载/编程-单片机重…

分库分表技术方案选型

一、MyCat 官方网站,技术文档 MyCat是一款由阿里Cobar演变而来的用于支持数据库读写分离、分片的数据库中间件。它基于MySQL协议,实现了MySQL的协议和能力,并作为代理层位于应用和数据库之间,可以隐藏底层数据库的复杂性。 原理…

基于YOLO11的遥感影像山体滑坡检测系统

基于YOLO11的遥感影像山体滑坡检测系统 (价格90) 按照7:2:1随机划分:训练集 6736张 验证集 1924张 测试集 963张 包含 [slide] [山体滑坡] 1种情况 通过PYQT5构建UI界面,包含图片检测,视频检测&…

三. Redis 基本指令(Redis 快速入门-03)

三. Redis 基本指令(Redis 快速入门-03) 文章目录 三. Redis 基本指令(Redis 快速入门-03)1. Redis 基础操作:2. 对 key(键)操作:3. 对 DB(数据库)操作4. 最后: Reids 指定大全(指令文档): https://www.redis.net.cn/order/ Redis…

使用 EXISTS 解决 SQL 中 IN 查询数量过多的问题

在 SQL 查询中,当我们面对需要在 IN 子句中列举大量数据的场景时,查询的性能往往会受到显著影响。这时候,使用 EXISTS 可以成为一种优化的良方。 问题的来源 假设我们有两个表,orders 和 customers,我们需要查询所有…