帮助中心帮助中心
在HTML树中查找元素
subtrees = findElement(树,选择器)
例子
子树= findElement (树,选择器)返回树匹配CSS选择器。
子树= findElement (树,选择器)
子树
树
选择器
全部折叠
从URL读取HTML代码//www.ru-cchi.com/help/textanalytics使用webread函数。
//www.ru-cchi.com/help/textanalytics
webread
url =“//www.ru-cchi.com/help/textanalytics”;代码= webread(url);
使用解析HTML代码htmlTree.
htmlTree
tree = htmlTree(code);
查找HTML树中的所有超链接findElement.超链接是具有元素名称的节点“一个”.
findElement
“一个”
选择器=“一个”;subtrees = findElement(树,选择器);
查看前几个子树。
子树(1:10)
ans = 10×1 htmlTree:<类= " skip_link sr-only " href = " # content_container " >跳到内容< / > < A href = " //www.ru-cchi.com?s_tid=gn_logo " class = " svg_link navbar-brand”> < IMG src = " /图片/响应/全球/ pic-header-mathworks-logo.svg”类=“mw_logo”alt = " MathWorks " / > < / > < A href = " //www.ru-cchi.com/pro2022世界杯八强谁会赢?ducts.html?s_tid=gn_ps " >产品< / > < A href = " //www.ru-cchi.com/solutions.html?s_tid=gn_sol " >解决方案< / > < A href = " https://www.m世界杯预选赛足球比赛时间athworks.com/academia.html?s_tid=gn_acad " >学术界< / > <支持href = " //www.ru-cchi.com/support.html?s_tid=gn_supp " > < / > < A href = " //www.ru-cchi.com/matlabcentral/?s_tid=gn世界杯预选赛小组名单_mlc " >社区< / > < A href = " //www.ru-cchi.com/company/events.html?s_tid=gn_ev " >事件< / > < A href = " https:/2022世界杯八强谁会赢?/www.ru-cchi.com/products/get-matlab.html?s_tid=gn_getml " >得到MATLAB < / > < A href = " //www.ru-cchi.com?s_tid=gn_logo " class = " svg_link pull-left”> < IMG src = " /图片/响应/全球/ pic-header-mathworks-logo.svg”类=“mw_logo”alt = " MathWorks " / > < / >
从子树中提取文本extractHTMLText.结果包含页面上每个链接的链接文本。
extractHTMLText
str = extractHTMLText(subtrees);str (1:10)
ans =10×1的字符串“跳到内容" "" "产品”“解决方案”“学2022世界杯八强谁会赢?术界”“支持”“社区世界杯预选赛足球比赛时间”“事件”“获取MATLAB”“”世界杯预选赛小组名单
HTML树,指定为标量htmlTree对象。
CSS选择器,指定为字符串标量或字符向量。有关更多信息,请参见CSS选择器.
匹配HTML子树,返回为htmlTree数组中。
一个典型的HTML元素包含以下组件:
元素名称——HTML标记的名称。元素名称对应于的名字属性的HTML树。
的名字
Attributes -关于标签的附加信息。HTML属性有表单的名字= "价值",在那里的名字而且价值分别表示属性名和值。属性出现在开始的HTML标记中。要从HTML树中获取属性值,请使用getAttribute.
的名字= "价值"
价值
getAttribute
Content——元素内容。内容出现在打开和关闭HTML标记之间。内容可以是文本数据或嵌套的HTML元素。类中提取文本htmlTree对象,使用extractHTMLText.类的嵌套HTML元素htmlTree对象时,使用孩子们财产。
孩子们
例如,HTML元素回家的< a href = " //www.ru-cchi.com " > < / >包括以下部分:
回家的< a href = " //www.ru-cchi.com " > < / >
一个
href
“//www.ru-cchi.com”
首页
CSS选择器指定匹配树中的元素的模式。
这个表格展示了如何从HTML树中提取不同的HTML元素的一些例子:
< p >
“p”
findElement(树,“p”)
<李>
“p,李”
findElement(树,”李p”)
<表>
"表p "
findElement(树,“表”页)
<一>
. pdf”
“(href = " . pdf”“美元)”
findElement(树”(href = " . pdf”“美元)”)
“p:第一个孩子”
findElement (tr,“p:第一个孩子”)
“p: first-of-type”
findElement (tr,“p: first-of-type”)
< em >
"p > em"
findElement(tr,"p > em")
<标题>
"h1 + p"
findElement(tr,"h1 + p")
”:空”
findElement (tr,“空”):
<标识>
”标签:不(空的):“
findElement (tr,“标签:不(空的):“)
的findElement函数支持所有CSS level 3,除了选择器“朗:“,”:“检查,”:链接”,”:活跃”,”:徘徊”,”:焦点”,”:目标”,启用”:“,禁用”:“.
“朗:“
”:“检查
”:链接”
”:活跃”
”:徘徊”
”:焦点”
”:目标”
启用”:“
禁用”:“
有关CSS选择器的更多信息,请参见[1].
[1]CSS选择器参考.https://www.w3schools.com/cssref/css_selectors.asp
在R2018b中引入
extractFileText|extractHTMLText|readPDFFormData|htmlTree|getAttribute|ismissing|tokenizedDocument
extractFileText
readPDFFormData
ismissing
tokenizedDocument
您有这个示例的修改版本。要使用编辑打开此示例吗?
你点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入该命令来运行该命令。Web浏览器不支持MATLAB命令。
选择一个网站,在可用的地方获得翻译的内容,并查看当地的活动和优惠。根据您所在的位置,我们建议您选择:.
您也可以从以下列表中选择一个网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
联系当地办事处