findElement

在HTML树中查找元素

折叠所有页面

语法

subtrees = findElement(树，选择器)

描述

例子

子树= findElement (树，选择器）返回树匹配CSS选择器。

例子

全部折叠

在HTML树中查找元素

打开实时脚本

从URL读取HTML代码//www.ru-cchi.com/help/textanalytics使用webread函数。

url =“//www.ru-cchi.com/help/textanalytics”；代码= webread(url);

使用解析HTML代码htmlTree．

tree = htmlTree(code);

查找HTML树中的所有超链接findElement．超链接是具有元素名称的节点“一个”．

选择器=“一个”；subtrees = findElement(树，选择器);

查看前几个子树。

子树(1:10)

ans = 10×1 htmlTree:<类= " skip_link sr-only " href = " # content_container " >跳到内容< / > < A href = " //www.ru-cchi.com?s_tid=gn_logo " class = " svg_link navbar-brand”> < IMG src = " /图片/响应/全球/ pic-header-mathworks-logo.svg”类=“mw_logo”alt = " MathWorks " / > < / > < A href = " //www.ru-cchi.com/pro2022世界杯八强谁会赢？ducts.html?s_tid=gn_ps " >产品< / > < A href = " //www.ru-cchi.com/solutions.html?s_tid=gn_sol " >解决方案< / > < A href = " https://www.m世界杯预选赛足球比赛时间athworks.com/academia.html?s_tid=gn_acad " >学术界< / > <支持href = " //www.ru-cchi.com/support.html?s_tid=gn_supp " > < / > < A href = " //www.ru-cchi.com/matlabcentral/?s_tid=gn世界杯预选赛小组名单_mlc " >社区< / > < A href = " //www.ru-cchi.com/company/events.html?s_tid=gn_ev " >事件< / > < A href = " https:/2022世界杯八强谁会赢？/www.ru-cchi.com/products/get-matlab.html?s_tid=gn_getml " >得到MATLAB < / > < A href = " //www.ru-cchi.com?s_tid=gn_logo " class = " svg_link pull-left”> < IMG src = " /图片/响应/全球/ pic-header-mathworks-logo.svg”类=“mw_logo”alt = " MathWorks " / > < / >

从子树中提取文本extractHTMLText．结果包含页面上每个链接的链接文本。

str = extractHTMLText(subtrees);str (1:10)

ans =10×1的字符串“跳到内容" "" "产品”“解决方案”“学2022世界杯八强谁会赢？术界”“支持”“社区世界杯预选赛足球比赛时间”“事件”“获取MATLAB”“”世界杯预选赛小组名单

输入参数

全部折叠

`树`- - - - - -HTML树
标量`htmlTree`对象

HTML树，指定为标量htmlTree对象。

`选择器`- - - - - -CSS选择器
字符串标量|特征向量

CSS选择器，指定为字符串标量或字符向量。有关更多信息，请参见CSS选择器．

输出参数

全部折叠

`子树`-匹配HTML子树
`htmlTree`数组

匹配HTML子树，返回为htmlTree数组中。

更多关于

全部折叠

HTML元素

一个典型的HTML元素包含以下组件:

元素名称——HTML标记的名称。元素名称对应于的名字属性的HTML树。
Attributes -关于标签的附加信息。HTML属性有表单的名字= "价值＂,在那里的名字而且价值分别表示属性名和值。属性出现在开始的HTML标记中。要从HTML树中获取属性值，请使用getAttribute．
Content——元素内容。内容出现在打开和关闭HTML标记之间。内容可以是文本数据或嵌套的HTML元素。类中提取文本htmlTree对象,使用extractHTMLText．类的嵌套HTML元素htmlTree对象时，使用孩子们财产。

例如，HTML元素回家的< a href = " //www.ru-cchi.com " > < / >包括以下部分:

组件		价值	描述
元素名称		`一个`	元素是一个超链接
属性	属性名称	`href`	超链接引用
属性	属性值	`“//www.ru-cchi.com”`	超链接参考值
内容		`首页`	要显示的文本

CSS选择器

CSS选择器指定匹配树中的元素的模式。

这个表格展示了如何从HTML树中提取不同的HTML元素的一些例子:

任务	CSS选择器	例子
查找所有段落(`< p >`)元素。	`“p”`	`findElement(树,“p”)`
查找所有段落(`< p >`)和列表项(`<李>`)元素。	`“p,李”`	`findElement(树,”李p”)`
查找所有段落(`< p >`)表(`<表>`)元素。	`"表p "`	`findElement(树,“表”页)`
查找所有超链接(`<一>`)具有超链接引用属性(`href`)以`. pdf”`．	`“(href = " . pdf”“美元)”`	`findElement(树”(href = " . pdf”“美元)”)`
查找所有段落(`< p >`)元素，这些元素是它们的父元素的第一个子元素。	`“p:第一个孩子”`	`findElement (tr,“p:第一个孩子”)`
查找所有段落(`< p >`)元素，这些元素是它们父元素的第一段元素。	`“p: first-of-type”`	`findElement (tr,“p: first-of-type”)`
找到所有重点(`< em >`)元素，其中父元素是段落(`< p >`)元素。	`"p > em"`	`findElement(tr，"p > em")`
查找所有段落(`< p >`)紧接在标题1 (`<标题>`)元素	`"h1 + p"`	`findElement(tr，"h1 + p")`
找到所有空元素。	`”:空”`	`findElement (tr,“空”):`
查找所有非空标签(`<标识>`)元素。	`”标签:不(空的):“`	`findElement (tr,“标签:不(空的):“)`

的findElement函数支持所有CSS level 3，除了选择器“朗:“，”:“检查，”:链接”，”:活跃”，”:徘徊”，”:焦点”，”:目标”，启用”:“,禁用”:“．

有关CSS选择器的更多信息，请参见[1]．

参考文献

[1]CSS选择器参考．https://www.w3schools.com/cssref/css_selectors.asp

版本历史

在R2018b中引入

另请参阅

findElement

语法

描述

例子

在HTML树中查找元素

输入参数

树- - - - - -HTML树标量htmlTree对象

选择器- - - - - -CSS选择器字符串标量|特征向量

输出参数

子树-匹配HTML子树htmlTree数组

更多关于

HTML元素

CSS选择器

参考文献

版本历史

另请参阅

主题

`树`- - - - - -HTML树
标量`htmlTree`对象

`选择器`- - - - - -CSS选择器
字符串标量|特征向量

`子树`-匹配HTML子树
`htmlTree`数组