主要内容

word2ind

将字映射到编码索引

描述

例子

= word2ind (内附单词返回的索引。单词在编码内附.对于编码词汇表中不包含的单词,函数返回.缺省情况下,该函数区分大小写。

例子

= word2ind (内附单词“IgnoreCase”,真的)返回索引,忽略使用前面任何语法的大小写。如果编码中的多个单词只是以防不同,则函数返回与其中一个单词对应的索引,而不返回任何特定的索引。

例子

全部折叠

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,词之间用空格隔开。从中提取文本sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);文档(1:10)
ans = 10 x1 tokenizedDocument: 70令牌:美丽的生物欲望增加从而美丽玫瑰可能永远不会死成熟时间流逝的记忆交给娇嫩的后嗣收缩你的明亮的眼睛feedst你灯火焰selfsubstantial燃料使饥荒丰富是你的自我你的敌人你甜蜜的自我残忍你艺术世界新鲜点缀春天华丽使者你自己的花蕾埋葬你的内容投标乡下人makst浪费吝啬鬼遗憾世界其他贪吃的人吃世界由于严重你71令牌:四十个冬天将包围你的额头挖深壕你的美丽的田地你的年轻骄傲的制服凝视破烂的杂草价值小问你的美丽的谎言珍藏你的旺盛的日子说你自己的深凹陷的眼睛表示耻辱的贪婪的赞美赞美值得你的美丽你可以回答美丽的孩子我的将被计算证明美丽继承你的新造你老了你的血液温暖你感到寒冷65个标志:看你的镜子,告诉你的脸,你看时间的脸,另一个人的脸,你更新它的新修补,你欺骗世界,不受祝福的母亲,美丽的母亲,她的子宫蔑视耕作,你的耕作,喜爱的坟墓,自爱停止子孙你是你母亲的镜子,你唤回可爱的四月,你的窗口,你的年龄,尽管皱纹,你的黄金时光,你活着,单身,你的形象,死你71个标志:不节俭的可爱,你为什么在你自己身上花费你的美丽的遗产,大自然的遗产,什么也不给,不借,坦率,借贷,自由美丽的吝啬鬼,你为什么滥用慷慨的慷慨,你给了无利可图的高利贷者,你为什么有大笔的钱,却能生活的交易,你自己,你自己,你可爱的自己,欺骗自然,叫你走了,可接受的审计,你能留下你的无用的美丽坟墓,你活着的执行人61个记号:时间温柔的工作框架可爱的凝视每只眼睛都居住玩暴君同样不公平的公平的卓越永不休息的时间过夏天可怕的冬天迷惑树液被霜冻繁茂的叶子完全消失了美丽被白雪覆盖光光的每一个夏天蒸馏留下的液体囚犯被压抑的墙玻璃美丽的效果美丽失去了也没有记忆花蒸馏虽然冬天遇到leese显示物质仍然生活甜蜜68个标志:让冬天破旧的手玷污你你的夏天在你蒸馏之前做甜蜜的瓶子宝藏你把美丽的宝藏在你自杀之前禁止放债幸福的偿还愿意的贷款你自己繁殖另一个你十倍幸福十倍你十倍幸福你十倍重新塑造你死亡你应该离开留下你活着的后代自我意志你是美丽的死亡征服蠕虫你的继承人64个标志:东方仁慈的光抬起燃烧的头眼睛致敬新出现的视力服务的外表神圣的威严爬上高耸的天山像强壮的青年中年但凡人的外表崇拜美丽仍然参加金色的朝圣最高的高度疲惫的汽车像虚弱的年龄reeleth day眼睛在恭顺的皈依低的路看另一个方向你自己出去你的中午不被看到死亡除非你得到儿子70个标志音乐,听,为什么,Hearst,音乐悲伤,甜蜜,甜蜜,战争,欢乐,欢乐为什么爱你,你高兴地接受,否则接受,快乐,你的烦恼,真实的和谐,和谐的声音,婚姻,冒犯你的耳朵,甜蜜地责备你,混淆,单身的部分,你应该承担,标记串,甜美的丈夫,另一个敲击,共同的秩序,像父系的孩子,幸福的母亲,悦耳的音符,唱他无言的歌,许多似乎唱你,你单身将证明70个标志:害怕湿寡妇的眼睛你消耗你自己的单身生活啊,你没有子女的人会死世界哀号你像没有妻子的世界你的寡妇还在哭泣你形成你已经留下了每个私人寡妇很好地照顾孩子的眼睛丈夫的形状的心灵看不节俭的世界花转移的地方仍然世界享受美丽的浪费有世界的尽头被闲置的用户破坏爱对别人的怀抱坐着谋杀的耻辱做69记号羞耻拒绝你的承受爱你自己是无虑的承认你愿意你爱很多你没有爱明显你被占有杀人的恨对你自己你坚持阴谋寻求美丽的屋顶毁坏修理你的主要愿望改变你的想法改变思想将恨更美丽的洛基温柔的爱你的存在仁慈的你自己最不善良的证明给你另一个自己爱美丽仍然活你的你

创建一个单词编码。

内附= wordEncoding(文档)
词汇:["最公平的" "生物" "欲望"…]

将单词"rose", "love"和"beauty"映射到编码索引使用word2ind函数。

话说= [“玫瑰”“爱”“美”];话说idx = word2ind (enc)
idx =1×37 387 79

输入参数

全部折叠

输入字编码,指定为wordEncoding对象。

输入单词,指定为字符串向量、字符向量或字符向量的单元格数组。如果您指定单词作为字符向量,则函数将实参作为单个单词处理。

数据类型:字符串|字符|细胞

输出参数

全部折叠

字编码索引的向量,作为正整数或的向量返回值。

对于编码词汇表中不包含的单词,函数返回

版本历史

介绍了R2018b

Baidu
map