抓取网页指定内容(资料),获取网页里的图片

少女的胡话 2024-06-04 10:02:21
最佳回答
1获取网页指定文字: 目前按键支持的元素特征值有这些: frame(框架) 、id(唯一标识) 、tag(标签) 、type(类型)、txt(文本) 、value(特征) 、index(索引) 、name(名字) 拥有这些特征值的元素才能直接使用htmlget命令来获取元素文本信息。命令名称: htmlget 获取网页元素的信息命令功能: 获取网页元素指定属性的信息命令参数: 参数1:字符串型,网页元素属性类型:text、html、 outerhtml、value、 src、 href、 offset 参数2:字符串型,网页元素特征字符串 例如下面的例子,按键精灵论坛搜索框,它有type、name、id这三个特征值2获取网页指定文字: 目前按键支持的元素特征值有这些: frame(框架) 、id(唯一标识) 、tag(标签) 、type(类型)、txt(文本) 、value(特征) 、index(索引) 、name(名字) 拥有这些特征值的元素才能直接使用htmlget命令来获取元素文本信息。命令名称: htmlget 获取网页元素的信息命令功能: 获取网页元素指定属性的信息命令参数: 参数1:字符串型,网页元素属性类型:text、html、 outerhtml、value、 src、 href、 offset 参数2:字符串型,网页元素特征字符串 例如下面的例子,按键精灵论坛搜索框,它有type、name、id这三个特征值3成功获取到了搜索框的value值。我们现在想要取下面红**域块的帖子标题,想要把一个页面中的这些帖子名称都取出来。该怎么办? 3本页面非法爬取自百度经验4 这些文字,都没有特征值的。我们不能使用特征值的方式去找他们。 我们可以这样—— 获取到整个网页的文本之后,去找我们要取的标题,前后不变的字符。5大家会发现,这个页面中,帖子标题前后不便的字符是:“]“ 和 “果果。。“ 那我们就将”]“字符前面的文本都过滤掉,“果果。。“后面的文本也过率掉,这样就能得到我们所需要的文本。6首先,我们需要复习下几个函数:instr函数描述start可选的。规定每次搜索的起始位置。默认是搜索起始位置是第一个字符。如果已规定 compare 参数,则必须有此参数。string1必需的。需要被搜索的字符串。string2必需的。需搜索的字符串。compare必需的。规定要使用的字符串比较类型。默认是 0 。可采用下列值: 0= vbbinarycompare - 执行二进制比较。 1 = vbtextcompare - 执行文本比较。 mid函数描述string必需的。从其中返回字符的字符串表达式。如果字符串包含 **,则返回 **。start必需的。规定起始位置。如果设置为大于字符串中的字符数目,则返回空字符串("")。length可选的。要返回的字符数目。如果省略或 length 超过文本的字符数,将返回字符串中从 start 到字符串结 束的所有字符。len函数描述string任意有效的字符串表达式。如果 string 参数包含**,则返回 **。varname任意有效的变量名。如果 varname 参数包含 **,则返回 **。7脚本过程:1. 先打开一个要提取信息的网站。2. 用 htmlget 命令 获取整个网页的文本信息,存到txt变量里面3. 过滤]符号前面的文本 4. 从文本里的"]"符号后面的位置开始取字符串,这里取了一百个字符放到命名为cc的变量里。如下图,也可以设置取80个字符,60个字符,但是长度一定要把“果果。。” 给截进来,因为后面我们要通过“果果。。”作为基准,去过滤掉不要的文字。5. 在cc变量里,找果果。。出现的位置,找到之后,截取“果果。。”之前的文本,也就是我们需要接取的地方。6. 最后,设置叠加的变量x,把每次找到的"]" 这个符号的位置放到变量x里进行累加,累加之后第二次循环,就会跳过之前找过的内容,进行新的内容的寻找。8源码:call plugin.web.bind("wqm.exe")call plugin.web.go("http://bbs.anjian.com/forum-250-1.html") //要提取信息的网站delay 1000 // 如果网页打开速度慢,可适当添加延迟txt =plugin.web.htmlget("text","") //获取网页的文本 x=1do aa = "]" //过滤]符号前面的文本 bb = instr(x, txt, aa) // 返回aa变量里的"["这个字符 在整个网页文本txt里的位置 cc = mid(txt, bb + len(aa), 100)//从文本里的"]"符号后面的位置开始取字符串,这里取了一百个字符 dd = instr(1, cc, "果果。。")//找cc字符串里,果果。。出现的位置,果果。。的位置就是我们要接取的字符串的长度 ee = mid(cc, 1, dd)//从文本里cc里第一个字符开始,取到果果。。文字出现的位置 if len(ee) <> 0 then //判断有没有取到匹配的字符 pp = left(ee, len(ee)-1) //如果有取到,我们还要做下处理,因为前面ee字符串是取到了果果。。出现的位置,所以果字也被取了,我们这里长度-1,去掉果字 traceprint pp x = instr(x, txt, pp) //这里做个记号,把每次找到的"]" 这个符号的位置进行累加,累加之后第二次循环,就会跳过之前找过的内容,进行新的内容的寻找。 else exit do //如果没有找到匹配的 就退出 end ifloop9 最终效果:标题后面的?…234这样的字符是帖子总回帖的页数10获取网页图片 我们截图按键精灵官网的图标:11我们可以查看图片的具体地址代码如下:call plugin.web.bind("wqm.exe")call plugin.web.go("http://www.anjian.com") //打开按键官网地址call plugin.web.s**e("http://www.anjian.com/images/logo.gif", "d:\123.gif")delay 3000runapp "mspaint.exe"&" d:\123.gif" //打开画图工具,看看保存的图片的效果命令名称:s**e 保存网页或图片命令功能:保存指定url的文件到本地磁盘 命令参数:参数1:字符串型,需要保存的目标url 参数2:字符串型,本地文件名最终效果:12大家有没有注意到,这里的按键精灵官网图标,是gif格式的,可以保存。如果是一个链接呢?例如,腾讯qq注册页面里的这种验证图片:13大家看,它的图片是保存在一个链接里的,这样就无法获取。14地址是没有变化的,但是点击进去之后,生成的就是另一张验证图片了。15所以,遇到这种链接方式的图片,大家还是使用查找图片的区域坐标,然后用屏幕范围截图命令来截图保存://下面这句在屏幕区域范围内截图保存到(内存)里,以备后面调用。call plugin.colorex.printscreen(0, 0, 1024, 768)//下面这句在屏幕区域范围内按方式0,查找颜色,返回左上角第一点颜色位置坐标 xy = plugin.colorex.findcolor(0, 0, 1024, 768, "0000ff", 1, 0) //下面这句用于分割字符串 zb = instr(xy, "|") //下面这句将字符串转换成数值 x = clng(left(xy, zb - 1)): y = clng(right(xy, len(xy) - zb)) //释放屏幕截图信息时请使用以下命令call plugin.colorex.free() end 20210311
汇率兑换计算器

类似问答
  • mathematica 如何从html格式网页中抓取数据?
    • 2024-06-04 12:36:53
    • 提问者: 未知
    例如这里的基金净值table,我只能做到将网页转为txt格式...{"2015-02-06",0.993,0.993,"-3.03%"},{"2015-02-05",1.024,1.024,"-0.68%"},{"2015-02-04",1.031,1.031,"0.98%"},{...
  • 如何把114啦网页变成好123网页
    • 2024-06-04 03:44:23
    • 提问者: 未知
    internet选项里面修改主页,应用确定就可以了。如果lz用的是别的浏览器,可以点击浏览器选项进行修改。
  • 京东白条用什么** 网页内容 - 百度
    • 2024-06-04 08:27:29
    • 提问者: 未知
    激活白条时,系统会根据您的综合信息进行评估,自动匹配最适合您的绑定**类型,具体请以激活时页面实际可以选择的情况为准。同时,白条激活银行我们正在丰富中,若您目前没有支持**,请您保持关注或办理目前已支持的**尝试激活。温馨提示:若页面仅显示**,就只能绑定**...
  • cdr里怎么将所有页一次导出成图片
    • 2024-06-04 08:06:08
    • 提问者: 未知
    方法一/步骤: 1、打开2113cdr,选择文件5261里的“导出”命令或按快捷键“ctrl+e。2、会弹出如4102下对话框选择扩1653展名为pdf格式 可移植文件格式(到时候导出的图可以直接编辑)。3、选择导出范围,里面的好多选项,按自己需求选择,如果导出多页就先“页”1-n“页。4、选择好后,单击”...
  • 网页打不开股票行情图
    • 2024-06-04 18:41:32
    • 提问者: 未知
    近期我们的也出现这种情况,但你多试几次就有图表了,打开—关闭,多重复几次。
  • 弹出网页
    • 2024-06-04 22:04:03
    • 提问者: 未知
    是修改了注册表,有360的话就锁定一个主页,修复一下就没事了
  • 网页上面的这个图标怎么使用?
    • 2024-06-04 01:34:34
    • 提问者: 未知
    一般没用,有些网上的word文档会直接在浏览器上打开,那时那个按钮才能点击
  • 网页病毒
    • 2024-06-04 00:20:04
    • 提问者: 未知
    网页病毒主要是利用windows漏洞来通过一段嵌入到网页的代码使电脑自动下载并执行网络上的一个指定程序,这个程序可以是任何程序,无论是什么病毒木马恶意程序,即便是正常程序也是可以的。防御方法主要有两种:安装系统补丁;使用非ie内核浏览器。
  • 手机网页安全证书警告我的手机总是打开每一网页就出现安全警告取消不掉
    • 2024-06-04 03:12:54
    • 提问者: 未知
    请问你手机的时间正确吗?
  • 如何操作百度网页取证?
    • 2024-06-04 10:36:39
    • 提问者: 未知
    1首先,我们通过百度搜索“百度取证”或者,也可以通过搜索“百度产品大全”里面也有百度取证产品。2技术驱动的智能取证**以技术为核心打造的智能取证**,完美应对复杂的取证场景共分六大类:切片取证技术;一中心多地域;代码级留存;北斗卫星授时;实时监控秒级取证;百万级处理能力;图1示强法律效力保障取证以效力为先,百度取证**已通过严格的司法鉴定;且取证全过程受权威司法机构实时监控,确保证据真实、完整、不...
汇率兑换计算器

热门推荐
热门问答
最新问答
推荐问答
新手帮助
常见问题
房贷计算器-九子财经 | 备案号: 桂ICP备19010581号-1 商务联系 企鹅:2790-680461

特别声明:本网为公益网站,人人都可发布,所有内容为会员自行上传发布",本站不承担任何法律责任,如内容有该作者著作权或违规内容,请联系我们清空删除。